論文の概要: A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07591v1
- Date: Mon, 12 May 2025 14:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.422036
- Title: A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
- Title(参考訳): 大規模言語モデルにおける命令追従の評価と改善のための多次元制約フレームワーク
- Authors: Junjie Ye, Caishuang Huang, Zhuohan Chen, Wenjie Fu, Chenyuan Yang, Leyi Yang, Yilong Wu, Peng Wang, Meng Zhou, Xiaolong Yang, Tao Gui, Qi Zhang, Zhongchao Shi, Jianping Fan, Xuanjing Huang,
- Abstract要約: 本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
- 参考スコア(独自算出の注目度): 48.361839372110246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction following evaluates large language models (LLMs) on their ability to generate outputs that adhere to user-defined constraints. However, existing benchmarks often rely on templated constraint prompts, which lack the diversity of real-world usage and limit fine-grained performance assessment. To fill this gap, we propose a multi-dimensional constraint framework encompassing three constraint patterns, four constraint categories, and four difficulty levels. Building on this framework, we develop an automated instruction generation pipeline that performs constraint expansion, conflict detection, and instruction rewriting, yielding 1,200 code-verifiable instruction-following test samples. We evaluate 19 LLMs across seven model families and uncover substantial variation in performance across constraint forms. For instance, average performance drops from 77.67% at Level I to 32.96% at Level IV. Furthermore, we demonstrate the utility of our approach by using it to generate data for reinforcement learning, achieving substantial gains in instruction following without degrading general performance. In-depth analysis indicates that these gains stem primarily from modifications in the model's attention modules parameters, which enhance constraint recognition and adherence. Code and data are available in https://github.com/Junjie-Ye/MulDimIF.
- Abstract(参考訳): 以下の命令は、ユーザ定義の制約に従うアウトプットを生成する能力に基づいて、大きな言語モデル(LLM)を評価する。
しかし、既存のベンチマークはしばしばテンプレート化された制約プロンプトに依存しており、これは現実世界の使い方の多様性を欠き、きめ細かいパフォーマンスアセスメントを制限している。
このギャップを埋めるために,3つの制約パターン,4つの制約カテゴリ,4つの困難レベルを含む多次元制約フレームワークを提案する。
本研究では, 制約拡張, 競合検出, 命令書き換えを行う自動命令生成パイプラインを構築し, 1200個のコード検証可能な命令追従テストサンプルを生成する。
7つのモデルファミリーにまたがる19のLLMを評価し、制約形式間の性能のかなりの変動を明らかにする。
例えば、平均的なパフォーマンスはレベルIでは77.67%からレベルIVでは32.96%に低下する。
さらに,これを用いて強化学習のためのデータを生成し,汎用性能を損なうことなく指導に追従することで,本手法の有効性を実証する。
詳細な分析では、これらの利得は主にモデルの注意モジュールパラメータの変更によるものであり、制約認識とアテンデンスを高めることが示される。
コードとデータはhttps://github.com/Junjie-Ye/MulDimIFで公開されている。
関連論文リスト
- WildIFEval: Instruction Following in the Wild [4.5214954812238295]
WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。
従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。
これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
論文 参考訳(メタデータ) (2025-03-09T12:06:29Z) - Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models [39.114513139453756]
大規模言語モデル(LLM)には、複数の制約を含む命令に従うことが不可欠である。
高品質な出力を持つデータセットを自動構築するパイプラインを設計する。
データ構築プロセス中に発生する正と負のサンプルを十分に活用するために、トレーニング手法として直接選好最適化(DPO)を選択する。
我々は,LLMのソフト制約追従能力を向上させるための手法の有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-01-09T03:34:07Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。