論文の概要: Generalizing Verifiable Instruction Following
- arxiv url: http://arxiv.org/abs/2507.02833v1
- Date: Thu, 03 Jul 2025 17:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.783481
- Title: Generalizing Verifiable Instruction Following
- Title(参考訳): 検証可能なインストラクションの一般化
- Authors: Valentina Pyatkin, Saumya Malik, Victoria Graf, Hamish Ivison, Shengyi Huang, Pradeep Dasigi, Nathan Lambert, Hannaneh Hajishirzi,
- Abstract要約: 人間とAIの相互作用を成功させる重要な要因は、言語モデルが正確に人間の指示に従う能力である。
ほとんどのモデルは、これらの能力をテストするベンチマークから検証可能な制約の小さなセットに強く適合している。
我々は、58の新しい多様で挑戦的なドメイン外制約を一般化した後の正確な命令を評価するために、IFBenchという新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 44.02178200187706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial factor for successful human and AI interaction is the ability of language models or chatbots to follow human instructions precisely. A common feature of instructions are output constraints like ``only answer with yes or no" or ``mention the word `abrakadabra' at least 3 times" that the user adds to craft a more useful answer. Even today's strongest models struggle with fulfilling such constraints. We find that most models strongly overfit on a small set of verifiable constraints from the benchmarks that test these abilities, a skill called precise instruction following, and are not able to generalize well to unseen output constraints. We introduce a new benchmark, IFBench, to evaluate precise instruction following generalization on 58 new, diverse, and challenging verifiable out-of-domain constraints. In addition, we perform an extensive analysis of how and on what data models can be trained to improve precise instruction following generalization. Specifically, we carefully design constraint verification modules and show that reinforcement learning with verifiable rewards (RLVR) significantly improves instruction following. In addition to IFBench, we release 29 additional new hand-annotated training constraints and verification functions, RLVR training prompts, and code.
- Abstract(参考訳): 人間とAIのインタラクションを成功させる重要な要因は、言語モデルやチャットボットが正確に人間の指示に従う能力である。
インストラクションの一般的な特徴は、ユーザがより有用な答えを作るために追加する、 ` ``only answer with yes or no" や ` ``mention the word `abrakadabra' least three times" のような出力制約である。
今日の最強モデルでさえ、そのような制約を満たすのに苦労しています。
ほとんどのモデルは、これらの能力をテストするベンチマークから検証可能な制約の小さなセットに強く適合しており、正確な命令に従うスキルがあり、見つからない出力制約に対してうまく一般化できない。
我々は、58の新しい多様で挑戦的なドメイン外制約を一般化した後の正確な命令を評価するために、IFBenchという新しいベンチマークを導入する。
さらに、一般化後の正確な指導を改善するために、どのようなデータモデルを訓練できるかを広範囲に分析する。
具体的には、制約検証モジュールを慎重に設計し、検証可能な報酬(RLVR)による強化学習は、指示に従うことを大幅に改善することを示す。
IFBenchに加えて、手書きのトレーニング制約と検証機能、RLVRトレーニングプロンプト、コードが追加されました。
関連論文リスト
- Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - Nevermind: Instruction Override and Moderation in Large Language Models [2.0935496890864207]
競合状況下での明示的な指示のタスクにおいて、最もポピュラーなプロプライエタリかつ異なるサイズのオープンソースモデルを調査し、ベンチマークする。
提案手法は,言語モデルが与えられた安全フィルタやガイドラインに従う能力と根本的に相反する。
論文 参考訳(メタデータ) (2024-02-05T18:58:19Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。