Fugu-MT 論文翻訳(概要): Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following

論文の概要: Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following

arxiv url: http://arxiv.org/abs/2502.17204v1
Date: Mon, 24 Feb 2025 14:39:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.612194
Title: Order Matters: Investigate the Position Bias in Multi-constraint Instruction Following
Title（参考訳）: 命令事項:多制約教育における位置バイアスの調査
Authors: Jie Zeng, Qianyu He, Qingyu Ren, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu,
Abstract要約: 複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。我々は,CDDI(Difficulty Distribution Index)による制約の難易度分布を定量的に測定する。難解な順序で制約を提示した場合, LLM はより高性能であることが判明した。
参考スコア（独自算出の注目度）: 39.114513139453756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world instructions with multiple constraints pose a significant challenge to existing large language models (LLMs). An observation is that the LLMs exhibit dramatic performance fluctuation when disturbing the order of the incorporated constraints. Yet, none of the existing works has systematically investigated this position bias problem in the field of multi-constraint instruction following. To bridge this gap, we design a probing task where we quantitatively measure the difficulty distribution of the constraints by a novel Difficulty Distribution Index (CDDI). Through the experimental results, we find that LLMs are more performant when presented with the constraints in a ``hard-to-easy'' order. This preference can be generalized to LLMs with different architecture or different sizes of parameters. Additionally, we conduct an explanation study, providing an intuitive insight into the correlation between the LLM's attention and constraint orders. Our code and dataset are publicly available at https://github.com/meowpass/PBIF.
Abstract（参考訳）: 複数の制約を持つ実世界の命令は、既存の大規模言語モデル(LLM)に重大な課題をもたらす。 LLMは, 組み込まれた制約の順序を乱す際に, 劇的な性能変動を示すことが観察された。しかし、既存の研究では、後続のマルチ制約命令の分野において、この位置バイアス問題を体系的に研究していない。このギャップを埋めるため、我々は、新しいDifficulty Distribution Index (CDDI) によって制約の難易度分布を定量的に測定する探索タスクを設計する。実験結果から, LLM は `hard-to-easy'' 順序で制約を提示した場合, より高性能であることが判明した。この選好は、異なるアーキテクチャやパラメータの異なる LLM に一般化することができる。さらに、LLMの注意と制約順序の相関について直感的な洞察を与える説明研究を行う。私たちのコードとデータセットはhttps://github.com/meowpass/PBIFで公開されています。

関連論文リスト

On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文参考訳（メタデータ） (2026-01-29T17:48:56Z)
Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage [34.247904738521136]
異なる命令形式がLLM推論能力をどのように促進するか、それとも誤解を招くかを検討する。本稿では,インストラクション境界の概念を導入し,異なるレベルのプロンプトカバレッジが推論バイアスにどのように寄与するかを系統的に分析する。異なる種類の命令境界条件下でスパースラベルを識別するLLMの能力を定量化する統合フレームワークであるBiasDetectorを提案する。
論文参考訳（メタデータ） (2025-09-24T16:15:26Z)
Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning [20.784944581469205]
COLLATEは、(小さな)LLMをチューニングして、下流タスクを選択的に改善する多様な理性のプールから出力を生成するフレームワークである。様々なパラメータスケール(1Bから8B)で異なるモデルファミリーのLCMに対してCOLLATEが有効であることを示すとともに、終了タスクによって導かれる複数の合理化プロバイダのメリットを示す。
論文参考訳（メタデータ） (2025-06-03T06:50:08Z)
Time's Up! An Empirical Study of LLM Reasoning Ability Under Output Length Constraint [20.685932824324446]
本研究では,Large Language Models (LLMs) の推論能力が実世界の遅延制約下で有効であるかどうかを考察する。具体的には、幅広い出力長予算の下で、共通推論データセット上で25以上のLLMをテストする。その結果,LCM推論の予算対応について,いくつかの興味深い知見が得られた。
論文参考訳（メタデータ） (2025-04-19T16:32:28Z)
WildIFEval: Instruction Following in the Wild [4.5214954812238295]
WildIFEval - 多様なマルチ制約条件を持つ12K実ユーザ命令の大規模データセット。従来のデータセットとは異なり、私たちのコレクションは、自然なユーザプロンプトにおいて、幅広い語彙とトピックの制約の範囲にまたがっています。これらの制約を8つの高レベルクラスに分類し、実世界のシナリオにおける分布とダイナミクスを捉える。
論文参考訳（メタデータ） (2025-03-09T12:06:29Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文参考訳（メタデータ） (2025-01-06T07:57:51Z)
Divide-Verify-Refine: Aligning LLM Responses with Complex Instructions [33.18076221854853]
LLMは、複数の制約を持つ複雑な命令に従うのに苦労する。最近の研究によると、LLM、特にオープンソースモデルは、複数の制約を持つ複雑な命令に従うのに苦労している。 3つのステップでDVR(Divide-Verify-Refine)フレームワークを提案する。 LLama3.1-8Bの制約準拠性を6つの制約で2倍にすることで,フレームワークのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2024-10-16T04:01:55Z)
Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。 PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。 The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文参考訳（メタデータ） (2024-08-02T17:59:42Z)
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文参考訳（メタデータ） (2024-06-25T16:32:33Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文参考訳（メタデータ） (2023-12-04T00:46:11Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。