論文の概要: What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices
- arxiv url: http://arxiv.org/abs/2409.01893v1
- Date: Tue, 3 Sep 2024 13:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:23:22.084464
- Title: What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices
- Title(参考訳): 効果的なロングコンテキストマルチホップインストラクションデータセット作成に必須の要素は何か? 洞察とベストプラクティス
- Authors: Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Wanxiang Che, Hang Yan, Kai Chen, Dahua Lin,
- Abstract要約: 拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 91.71951459594074
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) with extended context windows have significantly improved tasks such as information extraction, question answering, and complex planning scenarios. In order to achieve success in long context tasks, a large amount of work has been done to enhance the long context capabilities of the model through synthetic data. Existing methods typically utilize the Self-Instruct framework to generate instruction tuning data for better long context capability improvement. However, our preliminary experiments indicate that less than 35% of generated samples are multi-hop, and more than 40% exhibit poor quality, limiting comprehensive understanding and further research. To improve the quality of synthetic data, we propose the Multi-agent Interactive Multi-hop Generation (MIMG) framework, incorporating a Quality Verification Agent, a Single-hop Question Generation Agent, a Multiple Question Sampling Strategy, and a Multi-hop Question Merger Agent. This framework improves the data quality, with the proportion of high-quality, multi-hop, and diverse data exceeding 85%. Furthermore, we systematically investigate strategies for document selection, question merging, and validation techniques through extensive experiments across various models. Our findings show that our synthetic high-quality long-context instruction data significantly enhances model performance, even surpassing models trained on larger amounts of human-annotated data. Our code is available at: https://github.com/WowCZ/LongMIT.
- Abstract(参考訳): 拡張コンテキストウィンドウを持つ大規模言語モデル(LLM)の最近の進歩は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
長期的コンテキストタスクの成功を達成するために、合成データを通じてモデルの長期的コンテキスト能力を高めるために、大量の作業が行われた。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
しかし, 予備実験の結果, 生成サンプルの35%未満はマルチホップであり, 40%以上は品質が悪く, 包括的理解やさらなる研究が制限されていることがわかった。
合成データの質を向上させるために, 品質検証エージェント, シングルホップ質問生成エージェント, 複数質問サンプリング戦略, マルチホップ質問マーガーエージェントを組み込んだMIMG(Multi-agent Interactive Multi-hop Generation)フレームワークを提案する。
このフレームワークは、高品質、マルチホップ、多彩なデータの比率が85%を超え、データ品質を改善する。
さらに,様々なモデルを対象とした広範囲な実験を通じて,文書選択,質問マージ,検証手法の戦略を体系的に検討する。
以上の結果から,我々の合成した高品質な長文命令データにより,大量の人注データに基づいて訓練されたモデルよりも,モデル性能が著しく向上することが示唆された。
私たちのコードは、https://github.com/WowCZ/LongMIT.comで利用可能です。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - FM2DS: Few-Shot Multimodal Multihop Data Synthesis with Knowledge Distillation for Question Answering [21.545569307511183]
マルチモーダルなマルチホップ質問応答のためのトレーニングモデルを実現するための,高品質なデータセットを作成するための新しい手法を提案する。
提案手法は,ウィキペディアから関連するマルチモーダル文書を取得し,高レベルの質問や回答を合成的に生成し,厳格な基準で検証し,品質データを保証する5段階のパイプラインから構成される。
その結果、サンプルサイズが同じであれば、合成データに基づいてトレーニングされたモデルは、平均して1.9の正確なマッチング(EM)でトレーニングされたデータよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-12-09T22:35:44Z) - AIDE: Task-Specific Fine Tuning with Attribute Guided Multi-Hop Data Expansion [15.916595953695603]
特定のタスクのための微調整された大型言語モデル(LLM)には、タスクに関連する高品質で多様なトレーニングデータが必要である。
近年の研究では、LLMを利用してトレーニングデータを合成しているが、既存のアプローチは大きなシードデータセットに依存するか、あるいは、生成された出力におけるタスクの関連性とデータの多様性の両方を保証するために苦労している。
マルチホッププロセスを用いて10個のシードデータポイントを拡大し,多様性とタスク関連性を確保した新しいデータ合成フレームワークであるAIDEを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:39:16Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity [0.0]
AugConは、さまざまなレベルの粒度のコンテキスト駆動SFTデータを、多様性、品質、忠実度で自動生成することができる。
コントラスト学習を通じてスコアラーをトレーニングし、CSTと協調してクエリのランク付けと洗練を行う。
その結果、AugConがいくつかの最先端手法に対して高多様性、品質、忠実度SFTデータを生成する際の大きな利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-26T14:14:18Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。