論文の概要: Reasoning Models Are More Easily Gaslighted Than You Think
- arxiv url: http://arxiv.org/abs/2506.09677v1
- Date: Wed, 11 Jun 2025 12:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.966539
- Title: Reasoning Models Are More Easily Gaslighted Than You Think
- Title(参考訳): レゾネーターのリゾネーターは、想像以上にガスを放ちやすい
- Authors: Bin Zhu, Hailong Yin, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
- 参考スコア(独自算出の注目度): 85.84943447589511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning-centric models promise improved robustness through mechanisms such as chain-of-thought prompting and test-time scaling. However, their ability to withstand misleading user input remains underexplored. In this paper, we conduct a systematic evaluation of three state-of-the-art reasoning models, i.e., OpenAI's o4-mini, Claude-3.7-Sonnet and Gemini-2.5-Flash, across three multimodal benchmarks: MMMU, MathVista, and CharXiv. Our evaluation reveals significant accuracy drops (25-29% on average) following gaslighting negation prompts, indicating that even top-tier reasoning models struggle to preserve correct answers under manipulative user feedback. Built upon the insights of the evaluation and to further probe this vulnerability, we introduce GaslightingBench-R, a new diagnostic benchmark specifically designed to evaluate reasoning models' susceptibility to defend their belief under gaslighting negation prompt. Constructed by filtering and curating 1,025 challenging samples from the existing benchmarks, GaslightingBench-R induces even more dramatic failures, with accuracy drops exceeding 53% on average. Our findings reveal fundamental limitations in the robustness of reasoning models, highlighting the gap between step-by-step reasoning and belief persistence.
- Abstract(参考訳): 推論中心モデルの最近の進歩は、チェーン・オブ・ソート・プロンプトやテスト時間スケーリングといったメカニズムを通じて堅牢性を向上させることを約束している。
しかし、誤解を招くユーザー入力に耐える能力はいまだに解明されていない。
本稿では、MMMU、MathVista、CharXivの3つのマルチモーダルベンチマークにおいて、OpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルの体系的評価を行う。
評価の結果, ガス灯消火プロンプトによる精度低下(平均25~29%)が明らかとなり, トップ階層の推論モデルでさえ, 操作的ユーザフィードバックの下で正しい回答を維持するのに苦慮していることが示された。
評価の洞察に基づいて、この脆弱性をさらに調査するために、ガスライティング否定のプロンプトの下で彼らの信念を守るために、推論モデルの感受性を評価するために特別に設計された新しい診断ベンチマークであるGaslightingBench-Rを導入する。
GaslightingBench-Rは既存のベンチマークから1,025個のサンプルをフィルタリングしてキュレートすることで構築され、さらに劇的な失敗を誘発し、精度は平均で53%以上低下した。
本研究は,推論モデルの堅牢性の基本的な限界を明らかにし,ステップ・バイ・ステップの推論と信念の持続性のギャップを浮き彫りにした。
関連論文リスト
- SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。
SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文 参考訳(メタデータ) (2025-04-27T08:45:06Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT [0.0]
本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置偏差検出を統合した新しいベンチマークを提案する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを評価するためにこのベンチマークを適用した。
論文 参考訳(メタデータ) (2025-02-23T04:01:43Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。