論文の概要: Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs
- arxiv url: http://arxiv.org/abs/2511.05766v1
- Date: Fri, 07 Nov 2025 23:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.569054
- Title: Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs
- Title(参考訳): 機械のアンカー:LLMにおけるアンカリングバイアスの挙動と属性
- Authors: Felipe Valencia-Clavijo,
- Abstract要約: 本稿では,3つのコントリビューションを通じて,大規模言語モデル(LLM)のアンカー化に関する研究を進める。
その結果、Gemma-2B、Phi-2、Llama-2-7Bではアンカーが再重み付けに影響を及ぼすことが示唆された。
LLMのアンカーバイアスは、適用ドメインのリスクを強調しながら、堅牢で、測定可能で、解釈可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly examined as both behavioral subjects and decision systems, yet it remains unclear whether observed cognitive biases reflect surface imitation or deeper probability shifts. Anchoring bias, a classic human judgment bias, offers a critical test case. While prior work shows LLMs exhibit anchoring, most evidence relies on surface-level outputs, leaving internal mechanisms and attributional contributions unexplored. This paper advances the study of anchoring in LLMs through three contributions: (1) a log-probability-based behavioral analysis showing that anchors shift entire output distributions, with controls for training-data contamination; (2) exact Shapley-value attribution over structured prompt fields to quantify anchor influence on model log-probabilities; and (3) a unified Anchoring Bias Sensitivity Score integrating behavioral and attributional evidence across six open-source models. Results reveal robust anchoring effects in Gemma-2B, Phi-2, and Llama-2-7B, with attribution signaling that the anchors influence reweighting. Smaller models such as GPT-2, Falcon-RW-1B, and GPT-Neo-125M show variability, suggesting scale may modulate sensitivity. Attributional effects, however, vary across prompt designs, underscoring fragility in treating LLMs as human substitutes. The findings demonstrate that anchoring bias in LLMs is robust, measurable, and interpretable, while highlighting risks in applied domains. More broadly, the framework bridges behavioral science, LLM safety, and interpretability, offering a reproducible path for evaluating other cognitive biases in LLMs.
- Abstract(参考訳): 大規模言語モデル (LLM) は行動対象と意思決定体系の両方で研究されているが、観察された認知バイアスが表面の模倣やより深い確率シフトを反映しているかどうかは不明である。
古典的な人間の判断バイアスであるアンチョーリングバイアスは、批判的なテストケースを提供する。
以前の研究はLSMがアンカーを示すことを示しているが、ほとんどの証拠は表面レベルの出力に依存しており、内部のメカニズムや帰属的な貢献は未解明のままである。
本稿では,(1)学習データ汚染の制御による出力分布のシフトを示すログ確率に基づく行動解析,(2)モデルログ確率に対するアンカーの影響を定量化するための構造化プロンプトフィールドに対する正確なシェープ値属性,(3)6つのオープンソースモデルにまたがる行動と帰属的エビデンスを統合する統一アンカリングバイアス感度スコアの3つの寄与を通して,LCMにおけるアンカーのアンカー化の研究を進めた。
その結果、Gemma-2B、Phi-2、Llama-2-7Bではアンカーが再重み付けに影響を及ぼすことが示唆された。
GPT-2、Falcon-RW-1B、GPT-Neo-125Mのようなより小さなモデルは、感度を変調する可能性があることを示唆している。
しかし、帰属的効果は素早い設計によって異なり、LSMを人間の代替品として扱う際の脆弱さを強調している。
その結果, LLMのアンカーバイアスは堅牢で測定可能であり, 解釈可能であり, 適用ドメインのリスクを強調していることがわかった。
より広範に、このフレームワークは行動科学、LLMの安全性、解釈可能性を橋渡しし、LLMにおける他の認知バイアスを評価する再現可能なパスを提供する。
関連論文リスト
- Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability [0.7710436567988378]
大型言語モデル(LLM)は、微調整中に人間のようなバイアスを内部化する。
意図性における道徳的バイアスであるノベ効果は、微調整されたLLMに現れる。
対応する事前訓練されたモデルからのアクティベーションをいくつかの重要なレイヤにパッチすることは、その効果を排除するのに十分です。
論文 参考訳(メタデータ) (2025-10-14T07:31:29Z) - ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - An Empirical Study of the Anchoring Effect in LLMs: Existence, Mechanism, and Potential Mitigations [12.481311145515706]
本研究は、心が第一の情報に大きく依存する認知バイアスであるアンカー効果を考察し、影響のある判断を下す。
アンカー効果の大規模研究を容易にするため,新しいデータセットであるSynAnchorsを導入する。
以上の結果から, LLMのアンカリングバイアスは一般に浅層作用とともに存在し, 従来の手法では排除されないことが示唆された。
論文 参考訳(メタデータ) (2025-05-21T11:33:54Z) - Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。
MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。
相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文 参考訳(メタデータ) (2025-03-11T20:53:00Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。