論文の概要: Implicit Bias-Like Patterns in Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.11572v2
- Date: Wed, 14 May 2025 18:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.146022
- Title: Implicit Bias-Like Patterns in Reasoning Models
- Title(参考訳): 推論モデルにおけるインプシットバイアス様パターン
- Authors: Messi H. J. Lee, Calvin K. Lai,
- Abstract要約: インプシットバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的な精神過程のこと。
本稿では、推論モデルにおける暗黙的なバイアス様処理を研究するために、推論モデルインプシット・アソシエーション・テスト(RM-IAT)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Implicit bias refers to automatic mental processes that shape perceptions, judgments, and behaviors. Previous research on "implicit bias" in LLMs focused primarily on outputs rather than the processes underlying the outputs. We present the Reasoning Model Implicit Association Test (RM-IAT) to study implicit bias-like processing in reasoning models, which are LLMs using step-by-step reasoning for complex tasks. Using RM-IAT, we find o3-mini and DeepSeek R1 require more tokens when processing association-incompatible information, mirroring human implicit bias patterns. Conversely, Claude 3.7 Sonnet displays reversed patterns for race and gender tests, requiring more tokens for association-compatible information. This reversal appears linked to differences in safety mechanism activation, increasing deliberation in sensitive contexts. These findings suggest AI systems can exhibit processing patterns analogous to both human implicit bias and bias correction mechanisms.
- Abstract(参考訳): インプシットバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的な精神過程のこと。
LLMの「単純なバイアス」に関する以前の研究は、主に出力の基礎となるプロセスではなく出力に焦点を当てていた。
複雑なタスクに対するステップバイステップ推論を用いて,LLMである推論モデルにおける暗黙のバイアス様処理を研究するために,Reasoning Model Implicit Association Test (RM-IAT)を提案する。
RM-IATを用いると、o3-miniとDeepSeek R1は関連性のない情報を処理する際により多くのトークンを必要とし、人間の暗黙のバイアスパターンを反映する。
逆に、Claude 3.7 Sonnetは人種と性別のテストのための逆パターンを表示し、関連性のある情報により多くのトークンを必要とする。
この逆転は、安全機構のアクティベーションの違いと関係があり、センシティブな文脈での熟考が増加する。
これらの結果は、AIシステムは人間の暗黙のバイアスと偏見補正機構の両方に類似した処理パターンを示すことができることを示唆している。
関連論文リスト
- Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Biases Propagate in Encoder-based Vision-Language Models: A Systematic Analysis From Intrinsic Measures to Zero-shot Retrieval Outcomes [14.331322509462419]
社会集団バイアスは、基礎エンコーダに基づく視覚言語モデル(VLM)に固有のものであり、下流タスクのバイアスに現れる。
ゼロショットテキスト・トゥ・イメージ(TTI)とイメージ・トゥ・テキスト(ITT)検索におけるバイアスの度合いと、表現空間における固有バイアスの度合いを関連付けることにより、この伝播を測定するための制御された枠組みを導入する。
その結果,内因性バイアスと外因性バイアスの間に有意な相関がみられ,平均$rho$ = 0.83$pm$ 0.10が得られた。
注目すべきは、より大きな/ベターパフォーマンスモデルがより大きなバイアス伝播を示すこと、これは懸念を提起する発見である。
論文 参考訳(メタデータ) (2025-06-06T20:01:32Z) - BiasConnect: Investigating Bias Interactions in Text-to-Image Models [73.76853483463836]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用の分析と定量化を目的とした新しいツールであるBiasConnectを紹介する。
我々の手法は、与えられたバイアスが修正されたとき、他のバイアス次元が理想的な分布に向かって、あるいは離れてどのように変化するかを示す経験的推定を提供する。
本稿では,最適なバイアス緩和軸の選択,学習する依存関係の異なるTTIモデルの比較,およびTTIモデルにおける交叉社会的バイアスの増幅を理解するためのBiasConnectの有用性を示す。
論文 参考訳(メタデータ) (2025-03-12T19:01:41Z) - Does Reasoning Introduce Bias? A Study of Social Bias Evaluation and Mitigation in LLM Reasoning [17.86131226260848]
大規模言語モデル(LLM)における社会的偏見の最初の体系的評価について述べる。
偏りのある推論ステップが誤った予測とどのように相関しているかを定量化し、しばしばステレオタイプ表現につながる。
本稿では,モデル予測の変化を追跡することでバイアスを検出する軽量緩和法であるBias Proxy (ADBP)を提案する。
論文 参考訳(メタデータ) (2025-02-21T10:16:07Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - No Equations Needed: Learning System Dynamics Without Relying on Closed-Form ODEs [56.78271181959529]
本稿では,従来の2段階モデリングプロセスから離れることで,低次元力学系をモデル化する概念シフトを提案する。
最初に閉形式方程式を発見して解析する代わりに、我々のアプローチ、直接意味モデリングは力学系の意味表現を予測する。
私たちのアプローチは、モデリングパイプラインを単純化するだけでなく、結果のモデルの透明性と柔軟性も向上します。
論文 参考訳(メタデータ) (2025-01-30T18:36:48Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Investigating Bias Representations in Llama 2 Chat via Activation
Steering [0.0]
我々は、アクティベーションステアリングを使用して、性別、人種、宗教に関連するバイアスを調査し、緩和します。
以上の結果から,Llama 2 7B Chatの性差は,Reinforcement Learning from Human Feedback以降も持続することが明らかとなった。
この作業は、大規模言語モデルの効果的な再チーム戦略に関する貴重な洞察も提供する。
論文 参考訳(メタデータ) (2024-02-01T07:48:50Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Debiasing Skin Lesion Datasets and Models? Not So Fast [17.668005682385175]
データリスク学習のバイアスから学んだモデルは、同じデータから。
モデルが現実世界の状況では見つからない急激な相関関係を学習すると、医療上の決定などの重要なタスクへの展開は破滅的なものになる。
将来有望な研究を示唆する興味深い結果にもかかわらず、現在の脱バイアス法は、スキン・レジオンモデルのバイアス問題を解決する準備ができていないことが判明した。
論文 参考訳(メタデータ) (2020-04-23T21:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。