論文の概要: Investigating Thinking Behaviours of Reasoning-Based Language Models for Social Bias Mitigation
- arxiv url: http://arxiv.org/abs/2510.17062v1
- Date: Mon, 20 Oct 2025 00:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.271742
- Title: Investigating Thinking Behaviours of Reasoning-Based Language Models for Social Bias Mitigation
- Title(参考訳): ソーシャルバイアス軽減のための推論型言語モデルの思考行動の検討
- Authors: Guoqing Luo, Iffat Maab, Lili Mou, Junichi Yamagishi,
- Abstract要約: 社会的偏見凝集の背景にある思考過程のメカニズムを考察する。
社会的偏見の凝集を促進する2つの失敗パターンを発見しました。
我々のアプローチは、正確性を維持したり改善したりしながら、バイアスを効果的に軽減します。
- 参考スコア(独自算出の注目度): 43.974424280422085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning-based large language models excel at complex tasks through an internal, structured thinking process, a concerning phenomenon has emerged that such a thinking process can aggregate social stereotypes, leading to biased outcomes. However, the underlying behaviours of these language models in social bias scenarios remain underexplored. In this work, we systematically investigate mechanisms within the thinking process behind this phenomenon and uncover two failure patterns that drive social bias aggregation: 1) stereotype repetition, where the model relies on social stereotypes as its primary justification, and 2) irrelevant information injection, where it fabricates or introduces new details to support a biased narrative. Building on these insights, we introduce a lightweight prompt-based mitigation approach that queries the model to review its own initial reasoning against these specific failure patterns. Experiments on question answering (BBQ and StereoSet) and open-ended (BOLD) benchmarks show that our approach effectively reduces bias while maintaining or improving accuracy.
- Abstract(参考訳): 推論に基づく大規模言語モデルは、内部構造的思考プロセスを通じて複雑なタスクにおいて優れているが、そのような思考プロセスが社会的ステレオタイプを集約し、バイアスのある結果をもたらすという、関連する現象が出現している。
しかし、社会的偏見のシナリオにおけるこれらの言語モデルの基本的振る舞いはいまだに未解明のままである。
本研究では,この現象の背後にある思考過程のメカニズムを体系的に研究し,社会的偏見の凝集を促進する2つの失敗パターンを明らかにする。
1) モデルが第一の正当化として社会的なステレオタイプに依存しているステレオタイプ反復
2) 情報注入とは無関係で, 偏りのある物語を支えるために, 新たな細部を創り出したり, 紹介したりする。
これらの洞察に基づいて、これらの特定の障害パターンに対する独自の初期推論をレビューするために、モデルに問い合わせる、軽量なプロンプトベースの緩和アプローチを導入します。
質問応答実験 (BBQ, StereoSet) とオープンエンド (BOLD) ベンチマークにより, 精度を維持・改善しながら, バイアスを効果的に低減できることを示した。
関連論文リスト
- Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Implicit Bias-Like Patterns in Reasoning Models [0.5729426778193398]
暗黙のバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的な精神過程を指す。
本稿では、推論モデルにおける暗黙的なバイアス様処理を研究するために、推論モデルインプシット・アソシエーション・テスト(RM-IAT)を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:40:02Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。