論文の概要: AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment
- arxiv url: http://arxiv.org/abs/2409.16022v2
- Date: Tue, 08 Oct 2024 10:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:00.504830
- Title: AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment
- Title(参考訳): AIは認知的バイアスを受ける: LLMベースのバッチ関連性評価における閾値プライミングの探索的研究
- Authors: Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu,
- Abstract要約: 大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。
関連判定におけるしきい値プライミング効果の影響について検討した。
- 参考スコア(独自算出の注目度): 37.985947029716016
- License:
- Abstract: Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision-making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.
- Abstract(参考訳): 認知バイアス(Cognitive bias)は、不合理な判断や問題のある意思決定につながる思考における体系的な偏見であり、様々な分野にわたって広く研究されている。
近年、大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。
LLMの社会的偏見はよく研究されているが、認知的偏見は、特定のシナリオに焦点を当てた既存の研究により、より少ない注意を払っている。
様々な意思決定文脈における認知バイアスのLLMへの影響は未解明のままである。
関連判断におけるしきい値プライミング効果,中核的課題,およびIR(Information Retrieval)コミューニティ(IR)コミューニティにおける広く議論されている研究トピックの影響について検討した。
プライミング効果は、特定の刺激への曝露がその後の行動や決定に無意識に影響を及ぼすときに起こる。
GPT-3.5, GPT-4, LLaMa2-13B, LLaMa2-70Bなどの文書関連スコア, バッチ長, LLMモデルでAI判定を行った。
その結果, LLMは, 組み合わせやモデルによらず, 先行する文書が関連性が高い場合, 後続の文書に低スコアを与える傾向を示した。
我々の発見は、LLM%u2019s判断は人間の判断と同様、しきい値プライミングバイアスの影響を受けていることを示しており、研究者やシステムエンジニアは、IRタスク以降におけるLLMの設計、評価、監査において、人間のような認知バイアスを考慮に入れるべきであることを示唆している。
関連論文リスト
- The African Woman is Rhythmic and Soulful: Evaluation of Open-ended Generation for Implicit Biases [0.0]
本研究では,Large Language Models (LLMs) における微妙かつしばしば隠蔽されるバイアスについて検討する。
LLMがますますプロプライエタリになるにつれて、そのようなバイアスを測定するという課題はさらに悪化する。
本研究では,心理学的方法論に触発されたバイアスの革新的な尺度を紹介する。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。
計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-19T01:43:52Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。
本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T11:25:20Z) - Explaining Large Language Models Decisions with Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Cognitive Bias in High-Stakes Decision-Making with LLMs [19.87475562475802]
我々は,大規模言語モデル(LLM)における認知バイアスの発見,評価,緩和を目的としたフレームワークを開発する。
心理学と認知科学の先行研究に触発され、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアスを評価する。
我々は, LLMを用いた新たな手法により, それぞれのプロンプトの偏りを軽減し, 様々なバイアス緩和策を検証した。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。