論文の概要: Revisiting the Reliability of Language Models in Instruction-Following
- arxiv url: http://arxiv.org/abs/2512.14754v1
- Date: Mon, 15 Dec 2025 02:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.720942
- Title: Revisiting the Reliability of Language Models in Instruction-Following
- Title(参考訳): インストラクションフォローにおける言語モデルの信頼性の再考
- Authors: Jianshuo Dong, Yutong Zhang, Yan Liu, Zhenyu Zhong, Tao Wei, Chao Zhang, Han Qiu,
- Abstract要約: LLMはIFEvalなどのベンチマークでほぼシーリングの命令追従精度を達成した。
モデルが類似のユーザ意図を伝達する従兄弟のプロンプトに対して、微妙なニュアンスで一貫した能力を示すかどうか、ニュアンス指向の信頼性について検討する。
以上の結果から, ニュアンス指向の信頼性は, 信頼性が高く信頼性の高いLCM行動に向けた重要かつ過小評価された次のステップであることがわかった。
- 参考スコア(独自算出の注目度): 15.281163913211818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced LLMs have achieved near-ceiling instruction-following accuracy on benchmarks such as IFEval. However, these impressive scores do not necessarily translate to reliable services in real-world use, where users often vary their phrasing, contextual framing, and task formulations. In this paper, we study nuance-oriented reliability: whether models exhibit consistent competence across cousin prompts that convey analogous user intents but with subtle nuances. To quantify this, we introduce a new metric, reliable@k, and develop an automated pipeline that generates high-quality cousin prompts via data augmentation. Building upon this, we construct IFEval++ for systematic evaluation. Across 20 proprietary and 26 open-source LLMs, we find that current models exhibit substantial insufficiency in nuance-oriented reliability -- their performance can drop by up to 61.8% with nuanced prompt modifications. What's more, we characterize it and explore three potential improvement recipes. Our findings highlight nuance-oriented reliability as a crucial yet underexplored next step toward more dependable and trustworthy LLM behavior. Our code and benchmark are accessible: https://github.com/jianshuod/IFEval-pp.
- Abstract(参考訳): 高度なLCMは、IFEvalのようなベンチマークでほぼシーリングの命令追従精度を達成した。
しかし、これらの印象的なスコアは、実際の使用における信頼性の高いサービスに必ずしも変換されない。
本稿では,類似のユーザ意図を伝達する従兄弟のプロンプトに対して,微妙なニュアンスを伴ってモデルが一貫した能力を示すか否かを,ニュアンス指向の信頼性について検討する。
これの定量化のために、新しいメトリック、信頼性@kを導入し、データ拡張を通じて高品質な従兄弟プロンプトを生成する自動パイプラインを開発する。
これに基づいて,IFEval++を体系的評価のために構築する。
20のプロプライエタリな LLM と26のオープンソース LLM では、現在のモデルはニュアンス指向の信頼性にかなりの欠陥がある。
さらに、私たちはこれを特徴付け、3つの潜在的な改善レシピを探します。
以上の結果から, ニュアンス指向の信頼性は, 信頼性が高く信頼性の高いLCM行動に向けた重要かつ過小評価された次のステップであることがわかった。
私たちのコードとベンチマークは、https://github.com/jianshuod/IFEval-pp.comでアクセスできます。
関連論文リスト
- ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [66.14178164421794]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。
MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:54:08Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。