論文の概要: Scaling Towards the Information Boundary of Instruction Set: InfinityInstruct-Subject Technical Report
- arxiv url: http://arxiv.org/abs/2507.06968v1
- Date: Wed, 09 Jul 2025 15:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.653079
- Title: Scaling Towards the Information Boundary of Instruction Set: InfinityInstruct-Subject Technical Report
- Title(参考訳): インフィニティ・インストラクション・サブジェクト技術レポート
- Authors: Li Du, Hanyu Zhao, Yiming Ju, Tengfei Pan,
- Abstract要約: 高品質な命令データセットの構築は、モデル性能と一般化可能性の向上に不可欠である。
本稿では,階層的ラベリングシステム,情報的種選択アルゴリズム,モデル欠損診断を統合した系統的命令データ合成フレームワークを提案する。
本稿では,150万の命令を含む高品質なデータセットであるInfinityInstruct-Subjectを構築した。
- 参考スコア(独自算出の注目度): 11.70656700216213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has become a foundation for unlocking the capabilities of large-scale pretrained models and improving their performance on complex tasks. Thus, the construction of high-quality instruction datasets is crucial for enhancing model performance and generalizability. Although current instruction datasets have reached tens of millions of samples, models finetuned on them may still struggle with complex instruction following and tasks in rare domains. This is primarily due to limited expansion in both ``coverage'' (coverage of task types and knowledge areas) and ``depth'' (instruction complexity) of the instruction set. To address this issue, we propose a systematic instruction data construction framework, which integrates a hierarchical labeling system, an informative seed selection algorithm, an evolutionary data synthesis process, and a model deficiency diagnosis with targeted data generation. These components form an iterative closed-loop to continuously enhance the coverage and depth of instruction data. Based on this framework, we construct InfinityInstruct-Subject, a high-quality dataset containing ~1.5 million instructions. Experiments on multiple foundation models and benchmark tasks demonstrate its effectiveness in improving instruction-following capabilities. Further analyses suggest that InfinityInstruct-Subject shows enlarged coverage and depth compared to comparable synthesized instruction datasets. Our work lays a theoretical and practical foundation for the efficient, continuous evolution of instruction datasets, moving from data quantity expansion to qualitative improvement.
- Abstract(参考訳): インストラクションチューニングは、大規模な事前訓練されたモデルの能力を解放し、複雑なタスクにおけるパフォーマンスを改善するための基盤となっている。
したがって,高品質な命令データセットの構築は,モデルの性能向上と一般化可能性の向上に不可欠である。
現在の命令データセットは数千万のサンプルに到達しているが、それらに微調整されたモデルは、稀な領域における複雑な命令とタスクに苦しむ可能性がある。
これは主に、命令セットの ‘coverage' (タスクタイプと知識領域のカバレッジ) と '`depth' (インストラクションの複雑さ) の両方を限定的に拡張するためである。
そこで本研究では,階層的ラベリングシステム,情報的種選択アルゴリズム,進化的データ合成プロセス,ターゲットとするデータ生成を伴うモデル欠損診断を統合した,系統的な命令データ構築フレームワークを提案する。
これらのコンポーネントは繰り返し閉ループを形成し、命令データのカバレッジと深さを継続的に強化する。
このフレームワークに基づいて,約150万の命令を含む高品質なデータセットであるInfinityInstruct-Subjectを構築した。
複数の基礎モデルとベンチマークタスクの実験は、命令追従能力を改善する効果を示す。
さらに解析により、InfinityInstruct-Subjectは、同等の合成命令データセットと比較して、カバー範囲と深さが大きくなることが示唆された。
我々の研究は、データ量の拡大から質的改善へ移行し、命令データセットの効率的で継続的な進化のための理論的かつ実践的な基盤を築いてきた。
関連論文リスト
- Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-30T07:54:07Z) - Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング)は、ヒト/モデルなし合成データ合成法である。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Dynamics of Instruction Fine-Tuning for Chinese Large Language Models [19.832906541004114]
本研究では,中国語大言語モデルの指導指導におけるデータ量,モデルサイズ,データ構築方法の影響を体系的に検討する。
実験では,7bから33bパラメータのモデルを用いて3つの重要な結果を得た。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - A Preliminary Study of the Intrinsic Relationship between Complexity and
Alignment [90.7443414448245]
制御可能な方法で命令の複雑さを体系的に強化するツリーインストラクションを提案する。
命令のセマンティックツリーに指定された数のノードを追加することで、新しい命令データを得るだけでなく、修正された命令の難易度を制御することもできる。
論文 参考訳(メタデータ) (2023-08-10T16:58:51Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。