論文の概要: Implicit Bias-Like Patterns in Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.11572v1
- Date: Fri, 14 Mar 2025 16:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:52.681660
- Title: Implicit Bias-Like Patterns in Reasoning Models
- Title(参考訳): 推論モデルにおけるインプシットバイアス様パターン
- Authors: Messi H. J. Lee, Calvin K. Lai,
- Abstract要約: インプシットバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的または自発的な精神過程のことである。
本稿では、推論モデルにおける暗黙のバイアス様パターンを研究するために、Reasoning Model Implicit Association Test (RM-IAT) と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Implicit bias refers to automatic or spontaneous mental processes that shape perceptions, judgments, and behaviors. Previous research examining `implicit bias' in large language models (LLMs) has often approached the phenomenon differently than how it is studied in humans by focusing primarily on model outputs rather than on model processing. To examine model processing, we present a method called the Reasoning Model Implicit Association Test (RM-IAT) for studying implicit bias-like patterns in reasoning models: LLMs that employ step-by-step reasoning to solve complex tasks. Using this method, we find that reasoning models require more tokens when processing association-incompatible information compared to association-compatible information. These findings suggest AI systems harbor patterns in processing information that are analogous to human implicit bias. We consider the implications of these implicit bias-like patterns for their deployment in real-world applications.
- Abstract(参考訳): インプシットバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的または自発的な精神過程のことである。
大型言語モデル (LLM) における「単純バイアス」を調査する以前の研究は、モデル処理ではなくモデル出力に焦点をあてることによって、人体でどのように研究されるかとは異なるアプローチをすることが多かった。
モデル処理を検討するために,複雑なタスクを解くためにステップバイステップの推論を用いるLCMを用いて,推論モデルにおける暗黙のバイアス様パターンを研究するためのReasoning Model Implicit Association Test (RM-IAT) という手法を提案する。
この手法を用いることで,関連性情報よりも関連性情報を処理する場合には,推論モデルにより多くのトークンが必要であることが分かった。
これらの結果は、AIシステムが人間の暗黙の偏見に類似した情報処理のパターンを持っていることを示唆している。
我々は、これらの暗黙のバイアスのようなパターンが現実世界のアプリケーションに展開する意味を考察する。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - No Equations Needed: Learning System Dynamics Without Relying on Closed-Form ODEs [56.78271181959529]
本稿では,従来の2段階モデリングプロセスから離れることで,低次元力学系をモデル化する概念シフトを提案する。
最初に閉形式方程式を発見して解析する代わりに、我々のアプローチ、直接意味モデリングは力学系の意味表現を予測する。
私たちのアプローチは、モデリングパイプラインを単純化するだけでなく、結果のモデルの透明性と柔軟性も向上します。
論文 参考訳(メタデータ) (2025-01-30T18:36:48Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Debiasing Skin Lesion Datasets and Models? Not So Fast [17.668005682385175]
データリスク学習のバイアスから学んだモデルは、同じデータから。
モデルが現実世界の状況では見つからない急激な相関関係を学習すると、医療上の決定などの重要なタスクへの展開は破滅的なものになる。
将来有望な研究を示唆する興味深い結果にもかかわらず、現在の脱バイアス法は、スキン・レジオンモデルのバイアス問題を解決する準備ができていないことが判明した。
論文 参考訳(メタデータ) (2020-04-23T21:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。