論文の概要: Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2507.02799v1
- Date: Thu, 03 Jul 2025 17:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.678658
- Title: Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models
- Title(参考訳): すべて推論は必要か? 推論言語モデルの時代におけるバイアスの探索
- Authors: Riccardo Cantini, Nicola Gabriele, Alessio Orsino, Domenico Talia,
- Abstract要約: RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning Language Models (RLMs) have gained traction for their ability to perform complex, multi-step reasoning tasks through mechanisms such as Chain-of-Thought (CoT) prompting or fine-tuned reasoning traces. While these capabilities promise improved reliability, their impact on robustness to social biases remains unclear. In this work, we leverage the CLEAR-Bias benchmark, originally designed for Large Language Models (LLMs), to investigate the adversarial robustness of RLMs to bias elicitation. We systematically evaluate state-of-the-art RLMs across diverse sociocultural dimensions, using an LLM-as-a-judge approach for automated safety scoring and leveraging jailbreak techniques to assess the strength of built-in safety mechanisms. Our evaluation addresses three key questions: (i) how the introduction of reasoning capabilities affects model fairness and robustness; (ii) whether models fine-tuned for reasoning exhibit greater safety than those relying on CoT prompting at inference time; and (iii) how the success rate of jailbreak attacks targeting bias elicitation varies with the reasoning mechanisms employed. Our findings reveal a nuanced relationship between reasoning capabilities and bias safety. Surprisingly, models with explicit reasoning, whether via CoT prompting or fine-tuned reasoning traces, are generally more vulnerable to bias elicitation than base models without such mechanisms, suggesting reasoning may unintentionally open new pathways for stereotype reinforcement. Reasoning-enabled models appear somewhat safer than those relying on CoT prompting, which are particularly prone to contextual reframing attacks through storytelling prompts, fictional personas, or reward-shaped instructions. These results challenge the assumption that reasoning inherently improves robustness and underscore the need for more bias-aware approaches to reasoning design.
- Abstract(参考訳): Reasoning Language Models (RLM) は、Chain-of-Thought (CoT) のプロンプトや微調整された推論トレースといったメカニズムを通じて、複雑な多段階推論タスクを実行する能力によって、注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
本研究では,Large Language Models (LLMs) 向けに設計されたCLEAR-Biasベンチマークを用いて,RLMのバイアス誘発に対する対角的ロバスト性について検討する。
LLM-as-a-judge を用いた安全自動スコアリングとジェイルブレイク技術を用いて,様々な社会文化的側面における最先端のRTMを体系的に評価し,組込み安全機構の強度を評価する。
評価は3つの重要な疑問に対処する。
一 推論能力の導入がモデル公正性と堅牢性にどのように影響するか。
二 推論のために微調整されたモデルが、推論時に推し進めるCoTに依存するモデルよりも安全性が高いか否か。
三 偏見誘発を標的としたジェイルブレイク攻撃の成功率は、推理機構によってどのように異なるか。
以上の結果から,推論能力とバイアス安全性の関係が明らかとなった。
意外なことに、CoTのプロンプトや微調整された推論トレースを経由するモデルは、そのようなメカニズムのないベースモデルよりも一般的にバイアス誘発に弱いため、推論が意図せずステレオタイプ強化のための新しい経路を開く可能性がある。
推論可能なモデルは、特にストーリーテリングのプロンプトや架空のペルソナ、報酬の形をした指示を通じて、文脈的リフレーミング攻撃を起こす傾向にある、CoTプロンプトに依存するモデルよりも幾分安全なように見える。
これらの結果は、推論が本質的にロバスト性を改善し、推論設計に対するよりバイアスに敏感なアプローチの必要性を浮き彫りにする、という仮定に挑戦する。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。