論文の概要: DecIF: Improving Instruction-Following through Meta-Decomposition
- arxiv url: http://arxiv.org/abs/2505.13990v1
- Date: Tue, 20 May 2025 06:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.83189
- Title: DecIF: Improving Instruction-Following through Meta-Decomposition
- Title(参考訳): DecIF: メタ分解によるインストラクションフォローの改善
- Authors: Tingfeng Hui, Pengyu Zhu, Bowen Ping, Ling Tang, Yaqi Zhang, Sen Su,
- Abstract要約: DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。
命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。
応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
- 参考スコア(独自算出の注目度): 6.52937232641886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following has emerged as a crucial capability for large language models (LLMs). However, existing approaches often rely on pre-existing documents or external resources to synthesize instruction-following data, which limits their flexibility and generalizability. In this paper, we introduce DecIF, a fully autonomous, meta-decomposition guided framework that generates diverse and high-quality instruction-following data using only LLMs. DecIF is grounded in the principle of decomposition. For instruction generation, we guide LLMs to iteratively produce various types of meta-information, which are then combined with response constraints to form well-structured and semantically rich instructions. We further utilize LLMs to detect and resolve potential inconsistencies within the generated instructions. Regarding response generation, we decompose each instruction into atomic-level evaluation criteria, enabling rigorous validation and the elimination of inaccurate instruction-response pairs. Extensive experiments across a wide range of scenarios and settings demonstrate DecIF's superior performance on instruction-following tasks. Further analysis highlights its strong flexibility, scalability, and generalizability in automatically synthesizing high-quality instruction data.
- Abstract(参考訳): インストラクションフォローは、大規模言語モデル(LLM)にとって重要な機能として現れている。
しかし、既存のアプローチは、しばしば既存の文書や外部リソースに依存して命令追従データを合成し、その柔軟性と一般化性を制限する。
本稿では,LLMのみを用いた多種多様な高品質な命令追従データを生成する,完全自律型メタ分解誘導フレームワークDecIFを紹介する。
DecIFは分解の原理に基づいている。
命令生成のために, LLM は様々なメタ情報を生成するように誘導し, 応答制約と組み合わせて, 適切に構造化され, セマンティックにリッチな命令を生成する。
さらに、LLMを用いて、生成した命令内の潜在的な不整合を検出し、解決する。
応答生成に関して、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
幅広いシナリオと設定にわたる大規模な実験は、DecIFの命令追従タスクにおける優れたパフォーマンスを示している。
さらに分析は、高品質な命令データを自動的に合成する際の柔軟性、スケーラビリティ、一般化性を強調している。
関連論文リスト
- Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-following Ability [5.393872292662451]
textbfMeeseeks (Mr. Meeseeks from textitRick and MortyfootnoteRick and Morty)は、ジャスティン・ロイランド(Justin Roiland)とダン・ハーモン(Dan Harmon)がカートゥーン・ネットワーク(Cartoon Network)の夜間プログラミングブロック、アダルト・スイム(Ault Swim)のために制作したアメリカのアダルト・フィクションのシットコム。
Meeseeksは反復的なフィードバックフレームワークを通じて現実的な人間とLLMのインタラクションをシミュレートする。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。