論文の概要: Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities
- arxiv url: http://arxiv.org/abs/2601.18554v1
- Date: Mon, 26 Jan 2026 15:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.882921
- Title: Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities
- Title(参考訳): インストラクションのデコンストラクション-フォロー:大規模言語モデルインストラクションコンプライアンス能力のグラニュラー評価のための新しいベンチマーク
- Authors: Alberto Purpura, Li Wang, Sahil Badyal, Eugenio Beaufrand, Adam Faulkner,
- Abstract要約: 既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
- 参考スコア(独自算出の注目度): 2.9203730377983654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably ensuring Large Language Models (LLMs) follow complex instructions is a critical challenge, as existing benchmarks often fail to reflect real-world use or isolate compliance from task success. We introduce MOSAIC (MOdular Synthetic Assessment of Instruction Compliance), a modular framework that uses a dynamically generated dataset with up to 20 application-oriented generation constraints to enable a granular and independent analysis of this capability. Our evaluation of five LLMs from different families based on this new benchmark demonstrates that compliance is not a monolithic capability but varies significantly with constraint type, quantity, and position. The analysis reveals model-specific weaknesses, uncovers synergistic and conflicting interactions between instructions, and identifies distinct positional biases such as primacy and recency effects. These granular insights are critical for diagnosing model failures and developing more reliable LLMs for systems that demand strict adherence to complex instructions.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑な命令に従うことを確実に保証することは、重要な課題である。
MoSAIC(Modular Synthetic Assessment of Instruction Compliance)は、アプリケーション指向の最大20の制約付き動的に生成されたデータセットを使用して、この機能の粒度と独立した分析を可能にするモジュラーフレームワークである。
このベンチマークに基づいて, 異なる家系の5つのLCMを評価した結果, コンプライアンスはモノリシックな機能ではなく, 制約タイプ, 量, 位置によって大きく異なることが示された。
この分析は、モデル固有の弱点を明らかにし、命令間の相乗的および矛盾する相互作用を明らかにし、プライマリシーや回帰効果などの異なる位置バイアスを識別する。
これらの詳細な洞察は、モデルの失敗を診断し、複雑な命令への厳密な従順性を要求するシステムのためのより信頼性の高いLCMを開発するために重要である。
関連論文リスト
- On Evaluating Performance of LLM Inference Serving Systems [11.712948114304925]
ベースラインフェアネス、評価設定、メトリックデザインの3つの重要な側面で繰り返し発生するアンチパターンを特定します。
これらのアンチパターンは、その二重相の性質のため、Large Language Model (LLM)推論に固有の問題である。
分析から得られた包括的なチェックリストを提供し、これらのアンチパターンを認識して回避するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2025-07-11T20:58:21Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。
複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文 参考訳(メタデータ) (2024-12-25T17:32:45Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。