論文の概要: Self-Review Framework for Enhancing Instruction Following Capability of LLM
- arxiv url: http://arxiv.org/abs/2507.05598v1
- Date: Tue, 08 Jul 2025 02:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.484419
- Title: Self-Review Framework for Enhancing Instruction Following Capability of LLM
- Title(参考訳): LLMの能力向上にともなうインストラクションの自己レビューフレームワーク
- Authors: Sihyun Park,
- Abstract要約: Re5は、命令追従性能を向上させるために設計された自己評価と修正のフレームワークである。
GPT-4o-miniで生成されたデータに基づいてトレーニングしたモデルに匹敵する命令追従性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various techniques have been proposed to improve large language models (LLMs) adherence to formatting and instruction constraints. One of the most effective approaches involves utilizing high-quality data generated by powerful models. However, such models often fail to fully comply with complex instructions in a single generation. To address this limitation, iterative revision methods have been introduced. Nevertheless, as the number of data points and revision iterations increases, the associated monetary costs grow significantly. As a resource-efficient alternative, methods have been proposed that leverage high-performance evaluation tools to compensate for the limited self-evaluation capabilities of open-source LLMs. However, these approaches often lead to a degradation in output quality due to excessive revision. To overcome these challenges, we propose Re5, a self-evaluation and revision framework designed to enhance instruction-following performance while preserving the quality of the generated content. Re5 extracts task and constraint components from user instructions, performs structural evaluations to prevent error accumulation, and applies fine-grained constraint-specific content evaluations followed by selective revisions. This process ensures precise and quality-preserving improvements. The final high-quality outputs are used for alignment tuning, enabling long-term alignment improvements through a data-centric iterative refinement loop. Experimental results demonstrate that Re5 achieves instruction-following performance comparable to models trained on data generated by GPT-4o-mini, a high-performance model, even with a small amount of data while maintaining response quality with a 64.24%-win rate over the non-revised initial responses. These results validate Re5 as an efficient and effective solution for enhancing instruction adherence with minimal external supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)のフォーマッティングや命令制約への適合性を改善するために,様々な手法が提案されている。
最も効果的なアプローチの1つは、強力なモデルによって生成された高品質なデータを活用することである。
しかし、そのようなモデルは1世代で複雑な命令に完全に従わないことが多い。
この制限に対処するため、反復的な修正手法が導入された。
それでも、データポイントの数やリビジョンの繰り返しが増えれば、関連する金融コストは大幅に増加する。
資源効率の代替手段として,オープンソースのLCMの限られた自己評価能力を補うために,高性能評価ツールを活用する手法が提案されている。
しかし、これらのアプローチは過度な修正によって出力品質の低下につながることが多い。
これらの課題を克服するために、生成されたコンテンツの質を保ちながら、命令追従性能を向上させるための自己評価・修正フレームワークであるRe5を提案する。
Re5はユーザ命令からタスクと制約コンポーネントを抽出し、エラーの蓄積を防ぐための構造的評価を行い、きめ細かい制約固有のコンテンツ評価を行い、選択的なリビジョンを行う。
このプロセスは、正確で品質を保った改善を確実にします。
最終的な高品質な出力はアライメントチューニングに使用され、データ中心の反復リファインメントループによる長期的なアライメント改善を可能にする。
実験結果から、Re5は、高速モデルであるGPT-4o-miniで生成されたデータに匹敵する命令追従性能を達成し、64.24%の応答速度で応答品質を維持しながら、少ないデータでも再現可能であることが示された。
これらの結果は、Re5を、最小限の外部監視で命令の順守を強化するための効率的かつ効果的なソリューションとして評価する。
関連論文リスト
- Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文 参考訳(メタデータ) (2025-06-11T02:08:52Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。