論文の概要: From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
- arxiv url: http://arxiv.org/abs/2506.03968v1
- Date: Wed, 04 Jun 2025 14:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.365357
- Title: From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
- Title(参考訳): リアルからシンセティックへ - 分散グラウンドディングによる数百万の多様性と複雑なユーザインストラクションを合成する
- Authors: Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao,
- Abstract要約: 我々は、SynthQuestionsと呼ばれる100万の命令のデータセットを構築します。
トレーニングされたモデルが、いくつかの共通ベンチマークで主要なパフォーマンスを達成することを実証する。
- 参考スコア(独自算出の注目度): 33.009759731505746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of diverse, complex, and large-scale instruction data is crucial for automatically aligning large language models (LLMs). While there are methods capable of generating synthetic instructions at scale, they either suffer from limited grounding sources, leading to a narrow distribution, or rely on trivial extensions that fail to produce meaningful trajectories in terms of complexity. In contrast, instructions that benefit efficient alignment are typically crafted with cognitive insights and grounded in real-world use cases. In this paper, we synthesize such instructions using attributed grounding, which involves 1) a top-down attribution process that grounds a selective set of real instructions to situated users, and 2) a bottom-up synthesis process that leverages web documents to first generate a situation, then a meaningful instruction. This framework allows us to harvest diverse and complex instructions at scale, utilizing the vast range of web documents. Specifically, we construct a dataset of 1 million instructions, called SynthQuestions, and demonstrate that models trained on it achieve leading performance on several common benchmarks, with improvements that continually scale with more web corpora. Data, models and codes will be available at https://github.com/Ignoramus0817/SynthQuestions.
- Abstract(参考訳): 多様な複雑な大規模命令データの追跡は,大規模言語モデル(LLM)の自動調整に不可欠である。
大規模な合成命令を生成する方法はあるが、それらは限られた基底源に悩まされ、分布が狭いか、あるいは複雑さの観点から意味のある軌道を生成できないような自明な拡張に依存している。
対照的に、効率的なアライメントの恩恵を受ける命令は、一般的に認知的な洞察によって構築され、現実世界のユースケースに基礎を置いている。
本稿では,属性付き接地を用いてこのような命令を合成する。
1)位置ユーザに対する実命令の選択的なセットを根拠とするトップダウン属性プロセス
2) Webドキュメントを利用したボトムアップ合成プロセスにより,まず状況を生成し,次に意味のある指示を行う。
このフレームワークは、広範囲のWebドキュメントを利用して、多種多様な複雑な命令を大規模に収集することを可能にする。
具体的には、SynthQuestionsと呼ばれる100万の命令のデータセットを構築し、トレーニングされたモデルが複数の一般的なベンチマークでリードパフォーマンスを達成することを示す。
データ、モデル、コードはhttps://github.com/Ignoramus0817/SynthQuestions.comで入手できる。
関連論文リスト
- RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction [83.0216122783429]
Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。
WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
論文 参考訳(メタデータ) (2025-04-22T04:07:13Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Learn2Synth: Learning Optimal Data Synthesis using Hypergradients for Brain Image Segmentation [11.82940051568101]
合成によるドメインランダム化は、入力画像の領域に関してバイアスのないネットワークをトレーニングするための強力な戦略である。
本稿では,少数の実ラベル付きデータを用いて合成パラメータを学習する新しい手法であるLearner2 Synthを紹介する。
我々は,セグメンテーションネットワークの性能を向上させる方法で合成画像を強化するためのパラメトリックおよび非パラメトリック戦略を開発した。
論文 参考訳(メタデータ) (2024-11-23T00:52:49Z) - Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。