論文の概要: Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
- arxiv url: http://arxiv.org/abs/2509.04292v1
- Date: Thu, 04 Sep 2025 15:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.19649
- Title: Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
- Title(参考訳): 逆のIFEval: LLMsは、本物の指導をフォローするために、頑固な訓練大会を開会できるか?
- Authors: Qinyan Zhang, Xinping Lei, Ruijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun Liu, Yang Liu, Xiang Gao, Jiaheng Liu, Tong Yang, Zaiyuan Wang, Ge Zhang, Wenhao Huang,
- Abstract要約: 大規模言語モデル(LLM)は多様なタスクにおいて高いパフォーマンスを達成するが、認知慣性を示すことが多い。
Inverse IFEvalは、モデルの能力を測定し、トレーニングによるバイアスをオーバーライドし、敵の指示に従うためのベンチマークである。
- 参考スコア(独自算出の注目度): 36.957333458197034
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) achieve strong performance on diverse tasks but often exhibit cognitive inertia, struggling to follow instructions that conflict with the standardized patterns learned during supervised fine-tuning (SFT). To evaluate this limitation, we propose Inverse IFEval, a benchmark that measures models Counter-intuitive Abilitytheir capacity to override training-induced biases and comply with adversarial instructions. Inverse IFEval introduces eight types of such challenges, including Question Correction, Intentional Textual Flaws, Code without Comments, and Counterfactual Answering. Using a human-in-the-loop pipeline, we construct a dataset of 1012 high-quality Chinese and English questions across 23 domains, evaluated under an optimized LLM-as-a-Judge framework. Experiments on existing leading LLMs demonstrate the necessity of our proposed Inverse IFEval benchmark. Our findings emphasize that future alignment efforts should not only pursue fluency and factual correctness but also account for adaptability under unconventional contexts. We hope that Inverse IFEval serves as both a diagnostic tool and a foundation for developing methods that mitigate cognitive inertia, reduce overfitting to narrow patterns, and ultimately enhance the instruction-following reliability of LLMs in diverse and unpredictable real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて高いパフォーマンスを達成するが、しばしば認知慣性を示し、教師付き微調整(SFT)で学んだ標準パターンと矛盾する指示に従うのに苦労する。
この制限を評価するために,逆IFEval(Inverse IFEval)を提案する。
Inverse IFEvalでは、質問訂正、意図的なテキストの欠陥、コメントなしのコード、偽答など8種類の課題が紹介されている。
人間のループパイプラインを用いて、最適化されたLLM-as-a-Judgeフレームワークで評価され、23ドメインにわたる高品質な中国語と英語の質問のデータセットを構築した。
既存のLLMに対する実験は,提案した逆IFEvalベンチマークの必要性を実証している。
今後のアライメントの取り組みは、流布や事実の正しさを追求するだけでなく、非伝統的な文脈下での適応性も考慮すべきである。
Inverse IFEvalは認知的慣性を軽減するための診断ツールと基盤として機能し、狭いパターンへの過度な適合を減らし、究極的には多様かつ予測不能な現実のシナリオにおけるLLMの信頼性を高めることを願っている。
関連論文リスト
- Do LLMs estimate uncertainty well in instruction-following? [9.081508933326644]
大規模言語モデル(LLM)は、ユーザ指示に従うことができるため、さまざまなドメインにわたるパーソナルAIエージェントとして価値のあるものになり得る。
命令追従の文脈におけるLCMの不確実性推定能力の最初の体系的評価について述べる。
以上の結果から,既存の不確実性手法は,特にモデルが後続の命令で微妙な誤りを犯した場合に困難であることがわかった。
論文 参考訳(メタデータ) (2024-10-18T16:32:10Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。