Fugu-MT 論文翻訳(概要): Reasoning Models Can be Easily Hacked by Fake Reasoning Bias

論文の概要: Reasoning Models Can be Easily Hacked by Fake Reasoning Bias

arxiv url: http://arxiv.org/abs/2507.13758v2
Date: Tue, 22 Jul 2025 02:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 13:10:14.726582
Title: Reasoning Models Can be Easily Hacked by Fake Reasoning Bias
Title（参考訳）: フェイク・リゾニング・バイアスで簡単にハッキングできる「Reasoning Models」
Authors: Qian Wang, Yubo Fan, Zhenheng Tang, Nuo Chen, Wenxuan Wang, Bingsheng He,
Abstract要約: 我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
参考スコア（独自算出の注目度）: 59.79548223686273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Reasoning Models (LRMs) like DeepSeek-R1 and o1 are increasingly used as automated evaluators, raising critical questions about their vulnerability to the aesthetics of reasoning in LLM-as-a-judge settings. We introduce THEATER, a comprehensive benchmark to systematically evaluate this vulnerability-termed Reasoning Theater Bias (RTB)-by comparing LLMs and LRMs across subjective preference and objective factual datasets. Through investigation of six bias types including Simple Cues and Fake Chain-of-Thought, we uncover three key findings: (1) in a critical paradox, reasoning-specialized LRMs are consistently more susceptible to RTB than general-purpose LLMs, particularly in subjective tasks; (2) this creates a task-dependent trade-off, where LRMs show more robustness on factual tasks but less on subjective ones; and (3) we identify 'shallow reasoning'-plausible but flawed arguments-as the most potent form of RTB. To address this, we design and evaluate two prompting strategies: a targeted system prompt that improves accuracy by up to 12% on factual tasks but only 1-3% on subjective tasks, and a self-reflection mechanism that shows similarly limited effectiveness in the more vulnerable subjective domains. Our work reveals that RTB is a deep-seated challenge for LRM-based evaluation and provides a systematic framework for developing more genuinely robust and trustworthy LRMs.
Abstract（参考訳）: DeepSeek-R1やo1のような大きな推論モデル(LRM)は、自動評価器としてますます使われており、LLM-as-a-judge設定における推論の美学に対するその脆弱性に関する批判的な疑問が提起されている。本稿では,LLMとLRMを主観的嗜好と客観的な事実データセットで比較することにより,この脆弱性決定型推論シアターバイアス(RTB)を体系的に評価するための総合ベンチマークであるTheATERを紹介する。 1) 批判的パラドックスにおいては, 理化 LRM は一般目的の LLM よりも連続的に RTB に影響を受けやすいこと, (2) 現実的なタスクではより堅牢だが主観的なタスクではより少ないタスク依存のトレードオフが生じること, (3) 主観的タスクではより堅牢性を示すこと, (3) 主観的な議論として, より厳密な推論が可能であるが, 欠陥のある議論はRTB の最も強力な形式として同定すること, の3つの重要な知見が得られた。そこで本研究では,現実的なタスクでは最大12%,主観的タスクでは1～3%の精度向上を目標としたシステムプロンプトと,より脆弱な主観的ドメインでは同様に有効性が制限された自己回帰機構を設計・評価する。我々の研究は、RTBがRTMをベースとした評価の課題であり、より真に堅牢で信頼性の高いRTMを開発するための体系的なフレームワークを提供することを明らかにした。

関連論文リスト

Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。 $ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文参考訳（メタデータ） (2025-06-24T10:25:28Z)
Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文参考訳（メタデータ） (2025-05-29T17:49:44Z)
Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks [0.0]
大規模言語モデル (LLM) は、機械生成テキストの品質を評価するための評価器 (LLM-as-a-Judge) としてますます採用されている。本稿では,LPM-as-a-Judgeアーキテクチャの早期注入攻撃に対する脆弱性について検討する。
論文参考訳（メタデータ） (2025-05-19T16:51:12Z)
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。 S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文参考訳（メタデータ） (2025-04-14T16:13:23Z)
Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文参考訳（メタデータ） (2025-04-14T07:14:27Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-31T03:56:17Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。