論文の概要: A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07591v1
- Date: Mon, 12 May 2025 14:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.422036
- Title: A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
- Title(参考訳): 大規模言語モデルにおける命令追従の評価と改善のための多次元制約フレームワーク
- Authors: Junjie Ye, Caishuang Huang, Zhuohan Chen, Wenjie Fu, Chenyuan Yang, Leyi Yang, Yilong Wu, Peng Wang, Meng Zhou, Xiaolong Yang, Tao Gui, Qi Zhang, Zhongchao Shi, Jianping Fan, Xuanjing Huang,
- Abstract要約: 本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
- 参考スコア(独自算出の注目度): 48.361839372110246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction following evaluates large language models (LLMs) on their ability to generate outputs that adhere to user-defined constraints. However, existing benchmarks often rely on templated constraint prompts, which lack the diversity of real-world usage and limit fine-grained performance assessment. To fill this gap, we propose a multi-dimensional constraint framework encompassing three constraint patterns, four constraint categories, and four difficulty levels. Building on this framework, we develop an automated instruction generation pipeline that performs constraint expansion, conflict detection, and instruction rewriting, yielding 1,200 code-verifiable instruction-following test samples. We evaluate 19 LLMs across seven model families and uncover substantial variation in performance across constraint forms. For instance, average performance drops from 77.67% at Level I to 32.96% at Level IV. Furthermore, we demonstrate the utility of our approach by using it to generate data for reinforcement learning, achieving substantial gains in instruction following without degrading general performance. In-depth analysis indicates that these gains stem primarily from modifications in the model's attention modules parameters, which enhance constraint recognition and adherence. Code and data are available in https://github.com/Junjie-Ye/MulDimIF.
- Abstract(参考訳): 以下の命令は、ユーザ定義の制約に従うアウトプットを生成する能力に基づいて、大きな言語モデル(LLM)を評価する。
しかし、既存のベンチマークはしばしばテンプレート化された制約プロンプトに依存しており、これは現実世界の使い方の多様性を欠き、きめ細かいパフォーマンスアセスメントを制限している。
このギャップを埋めるために,3つの制約パターン,4つの制約カテゴリ,4つの困難レベルを含む多次元制約フレームワークを提案する。
本研究では, 制約拡張, 競合検出, 命令書き換えを行う自動命令生成パイプラインを構築し, 1200個のコード検証可能な命令追従テストサンプルを生成する。
7つのモデルファミリーにまたがる19のLLMを評価し、制約形式間の性能のかなりの変動を明らかにする。
例えば、平均的なパフォーマンスはレベルIでは77.67%からレベルIVでは32.96%に低下する。
さらに,これを用いて強化学習のためのデータを生成し,汎用性能を損なうことなく指導に追従することで,本手法の有効性を実証する。
詳細な分析では、これらの利得は主にモデルの注意モジュールパラメータの変更によるものであり、制約認識とアテンデンスを高めることが示される。
コードとデータはhttps://github.com/Junjie-Ye/MulDimIFで公開されている。
関連論文リスト
- Generalizing Verifiable Instruction Following [44.02178200187706]
人間とAIの相互作用を成功させる重要な要因は、言語モデルが正確に人間の指示に従う能力である。
ほとんどのモデルは、これらの能力をテストするベンチマークから検証可能な制約の小さなセットに強く適合している。
我々は、58の新しい多様で挑戦的なドメイン外制約を一般化した後の正確な命令を評価するために、IFBenchという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-03T17:44:33Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - RECAST: Strengthening LLMs' Complex Instruction Following with Constraint-Verifiable Data [37.631782007066214]
RECASTはデータセットを合成するための新しいフレームワークで、各サンプルには既存のベンチマークよりもはるかに多くの制約が組み込まれている。
我々は15の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。
実験の結果、RECAST-30Kで微調整されたモデルでは、後続の複雑な命令が大幅に改善された。
論文 参考訳(メタデータ) (2025-05-25T08:31:08Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - WildIFEval: Instruction Following in the Wild [4.5214954812238295]
WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
論文 参考訳(メタデータ) (2025-03-09T12:06:29Z) - Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
高品質な出力を持つデータセットを自動構築するパイプラインを設計する。
データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。
我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-01-09T03:34:07Z) - Multi-Attribute Constraint Satisfaction via Language Model Rewriting [67.5778646504987]
マルチ属性制約満足度(英: Multi-Attribute Constraint Satisfaction, MACS)は、言語モデルを微調整して、複数の外部実値属性に対するユーザ指定制約を満たす手法である。
我々の研究は、NLPやバイオインフォマティクスにまたがる多様な応用に影響を及ぼす、一般化および実値多属性制御のための新しい道を開く。
論文 参考訳(メタデータ) (2024-12-26T12:36:39Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。