論文の概要: DecIF: Improving Instruction-Following through Meta-Decomposition
- arxiv url: http://arxiv.org/abs/2505.13990v2
- Date: Wed, 11 Jun 2025 03:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.208196
- Title: DecIF: Improving Instruction-Following through Meta-Decomposition
- Title(参考訳): DecIF: メタ分解によるインストラクションフォローの改善
- Authors: Tingfeng Hui, Pengyu Zhu, Bowen Ping, Ling Tang, Guanting Dong, Yaqi Zhang, Sen Su,
- Abstract要約: DecIFは、多種多様な高品質の命令追従データを生成する、完全に自律的でメタ分解誘導フレームワークである。
命令生成のために,LLMは様々なメタ情報を反復的に生成し,応答制約と組み合わせて意味的にリッチな命令を生成するように誘導する。
応答生成のために、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
- 参考スコア(独自算出の注目度): 9.939860059820917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following has emerged as a crucial capability for large language models (LLMs). However, existing approaches often rely on pre-existing documents or external resources to synthesize instruction-following data, which limits their flexibility and generalizability. In this paper, we introduce DecIF, a fully autonomous, meta-decomposition guided framework that generates diverse and high-quality instruction-following data using only LLMs. DecIF is grounded in the principle of decomposition. For instruction generation, we guide LLMs to iteratively produce various types of meta-information, which are then combined with response constraints to form well-structured and semantically rich instructions. We further utilize LLMs to detect and resolve potential inconsistencies within the generated instructions. Regarding response generation, we decompose each instruction into atomic-level evaluation criteria, enabling rigorous validation and the elimination of inaccurate instruction-response pairs. Extensive experiments across a wide range of scenarios and settings demonstrate DecIF's superior performance on instruction-following tasks. Further analysis highlights its strong flexibility, scalability, and generalizability in automatically synthesizing high-quality instruction data.
- Abstract(参考訳): インストラクションフォローは、大規模言語モデル(LLM)にとって重要な機能として現れている。
しかし、既存のアプローチは、しばしば既存の文書や外部リソースに依存して命令追従データを合成し、その柔軟性と一般化性を制限する。
本稿では,LLMのみを用いた多種多様な高品質な命令追従データを生成する,完全自律型メタ分解誘導フレームワークDecIFを紹介する。
DecIFは分解の原理に基づいている。
命令生成のために, LLM は様々なメタ情報を生成するように誘導し, 応答制約と組み合わせて, 適切に構造化され, セマンティックにリッチな命令を生成する。
さらに、LLMを用いて、生成した命令内の潜在的な不整合を検出し、解決する。
応答生成に関して、各命令を原子レベルの評価基準に分解し、厳密な検証と不正確な命令応答対の除去を可能にする。
幅広いシナリオと設定にわたる大規模な実験は、DecIFの命令追従タスクにおける優れたパフォーマンスを示している。
さらに分析は、高品質な命令データを自動的に合成する際の柔軟性、スケーラビリティ、一般化性を強調している。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文 参考訳(メタデータ) (2025-06-11T02:08:52Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-following Ability [5.393872292662451]
textbfMeeseeks (Mr. Meeseeks from textitRick and MortyfootnoteRick and Morty)は、ジャスティン・ロイランド(Justin Roiland)とダン・ハーモン(Dan Harmon)がカートゥーン・ネットワーク(Cartoon Network)の夜間プログラミングブロック、アダルト・スイム(Ault Swim)のために制作したアメリカのアダルト・フィクションのシットコム。
Meeseeksは反復的なフィードバックフレームワークを通じて現実的な人間とLLMのインタラクションをシミュレートする。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング)は、ヒト/モデルなし合成データ合成法である。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。