論文の概要: Towards Evaluting Fake Reasoning Bias in Language Models
- arxiv url: http://arxiv.org/abs/2507.13758v3
- Date: Mon, 29 Sep 2025 11:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.486688
- Title: Towards Evaluting Fake Reasoning Bias in Language Models
- Title(参考訳): 言語モデルにおけるフェイク推論バイアスの評価に向けて
- Authors: Qian Wang, Zhenheng Tang, Zhanzhi Lou, Nuo Chen, Wenxuan Wang, Bingsheng He,
- Abstract要約: 論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
- 参考スコア(独自算出の注目度): 47.482898076525494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs), evolved from standard Large Language Models (LLMs), are increasingly utilized as automated judges because of their explicit reasoning processes. Yet we show that both LRMs and standard LLMs are vulnerable to Fake Reasoning Bias (FRB), where models favor the surface structure of reasoning even when the logic is flawed. To study this problem, we introduce THEATER, a comprehensive benchmark that systematically investigates FRB by manipulating reasoning structures to test whether language models are misled by superficial or fabricated cues. It covers two FRB types: (1) Simple Cues, minimal cues that resemble reasoning processes, and (2) Fake CoT, fabricated chains of thought that simulate multi-step reasoning. We evaluate 17 advanced LLMs and LRMs on both subjective DPO and factual datasets. Our results reveal four key findings: (1) Both LLMs and LRMs are vulnerable to FRB, but LLMs are generally more robust than LRMs. (2) Simple Cues are especially harmful, reducing accuracy by up to 15% on the most vulnerable datasets. (3) Subjective DPO tasks are the most vulnerable, with LRMs suffering sharper drops than LLMs. (4) Analysis of LRMs' thinking traces shows that Simple Cues hijack metacognitive confidence, while Fake CoT is absorbed as internal thought, creating a "more thinking, less robust" paradox in LRMs. Finally, prompt-based mitigation improves accuracy on factual tasks by up to 10%, but has little effect on subjective tasks, where self-reflection sometimes lowers LRM performance by 8%. These results highlight FRB as a persistent and unresolved challenge for language models.
- Abstract(参考訳): 標準のLarge Language Models (LLMs) から進化したLarge Reasoning Models (LRMs) は、その明示的な推論プロセスのために自動化された判断としてますます活用されている。
しかし, LRM と標準 LLM はともに FRB (Fake Reasoning Bias) に対して脆弱であることを示す。
そこで本研究では,言語モデルが表面的あるいは製法的に誤解されているかどうかを調べるために,推論構造を操作することによってFRBを体系的に調査する総合的なベンチマークであるTheATERを紹介する。
1)単純なキュー、推論プロセスに似た最小限のキュー、(2)多段階推論をシミュレートした思考の連鎖であるフェイクCoTである。
主観的DPOと実データの両方を用いて17種類の高度なLCMとLEMを評価した。
1) LLM と LRM は FRB に弱いが, LLM は LRM よりも強い。
2) 単純なキューは特に有害であり,最も脆弱なデータセットでは,最大15%の精度で精度が低下する。
3) DPO タスクが最も脆弱であり, LRM は LLM よりも鋭く低下する。
4) LRMsの思考痕跡の分析から, シンプルクエスの認知能力は高いが, Fake CoTは内的思考として吸収され, LRMsでは「より思考的で、より堅牢」なパラドックスが生じることが示された。
最後に、プロンプトベースの緩和は、現実的なタスクの精度を最大10%向上させるが、自己回帰によってLRM性能が8%低下する主観的なタスクにはほとんど影響を与えない。
これらの結果は、FRBが言語モデルに対する永続的で未解決の課題であることを示している。
関連論文リスト
- Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。
本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-19T16:51:12Z) - S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。
システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。
S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文 参考訳(メタデータ) (2025-04-14T16:13:23Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。