論文の概要: Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
- arxiv url: http://arxiv.org/abs/2507.07186v1
- Date: Wed, 09 Jul 2025 18:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.161263
- Title: Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
- Title(参考訳): ファインタニングによるプレトレーニングで植えられた植物:LLMにおける認知バイアスの起源に関する事例研究
- Authors: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky,
- Abstract要約: 大型言語モデル(LLM)は認知バイアスを示す。
これらのバイアスはモデルによって異なり、命令チューニングによって増幅することができる。
これらのバイアスの違いが事前学習、微調整、あるいはランダムノイズに起因するかどうかは不明だ。
- 参考スコア(独自算出の注目度): 51.00909549291524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit cognitive biases -- systematic tendencies of irrational decision-making, similar to those seen in humans. Prior work has found that these biases vary across models and can be amplified by instruction tuning. However, it remains unclear if these differences in biases stem from pretraining, finetuning, or even random noise due to training stochasticity. We propose a two-step causal experimental approach to disentangle these factors. First, we finetune models multiple times using different random seeds to study how training randomness affects over $30$ cognitive biases. Second, we introduce \emph{cross-tuning} -- swapping instruction datasets between models to isolate bias sources. This swap uses datasets that led to different bias patterns, directly testing whether biases are dataset-dependent. Our findings reveal that while training randomness introduces some variability, biases are mainly shaped by pretraining: models with the same pretrained backbone exhibit more similar bias patterns than those sharing only finetuning data. These insights suggest that understanding biases in finetuned models requires considering their pretraining origins beyond finetuning effects. This perspective can guide future efforts to develop principled strategies for evaluating and mitigating bias in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間に見られるような、不合理な意思決定の体系的な傾向である認知バイアスを示す。
以前の研究では、これらのバイアスはモデルによって異なり、インストラクションチューニングによって増幅できることがわかった。
しかし、これらのバイアスの違いが事前学習、微調整、あるいは訓練確率性によるランダムノイズに起因するかどうかは不明である。
本稿では,これらの要因を解消するための2段階の因果実験手法を提案する。
まず、異なるランダムシードを用いて複数のモデルを微調整し、ランダムネスのトレーニングが30ドル以上の認知バイアスに与える影響について研究する。
次に、モデル間で命令データセットを交換してバイアスソースを分離する「emph{cross-tuning}」を紹介します。
このスワップは、異なるバイアスパターンをもたらすデータセットを使用し、バイアスがデータセットに依存しているかどうかを直接テストする。
以上の結果から,トレーニングのランダム性にはいくつかのばらつきが伴うが,バイアスは主に事前学習によって形成されていることが判明した:同じ事前学習されたバックボーンを持つモデルは,微調整データを共有するモデルよりも,より類似したバイアスパターンを示す。
これらの知見は、微調整モデルにおけるバイアスの理解には、微調整効果を超えた事前学習の原点を考慮する必要があることを示唆している。
この視点は、LLMの評価と緩和のための原則的戦略を開発するための今後の取り組みを導くことができる。
関連論文リスト
- Challenges learning from imbalanced data using tree-based models: Prevalence estimates systematically depend on hyperparameters and can be upwardly biased [0.0]
不均衡二項分類問題は、多くの研究分野において発生する。
モデルのトレーニングのための(より)バランスのとれたデータセットを作成するために、多数派のクラスをサブサンプルするのが一般的です。
このバイアスを説明する一つの方法は、多数派クラスのサンプリング率に基づいて、結果の予測結果を新しい値に解析的にマッピングすることである。
この方法で無作為林を校正することは、上向きに偏りのある有病率推定を含む、意図しない負の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-17T19:38:29Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Bayesian analysis of the prevalence bias: learning and predicting from
imbalanced data [10.659348599372944]
本稿では,モデル学習のための理論的および計算的枠組みと,有病率バイアスの存在下での予測について述べる。
原則的なトレーニング損失の代替として,要約曲線から操作点を選択することで,テスト時の手順を補完するものだ。
バックプロパゲーションを用いた(深い)学習の現在のパラダイムにシームレスに統合され、ベイズモデルと自然に結合する。
論文 参考訳(メタデータ) (2021-07-31T14:36:33Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。