Fugu-MT 論文翻訳(概要): AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment

論文の概要: AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment

arxiv url: http://arxiv.org/abs/2409.16022v2
Date: Tue, 8 Oct 2024 10:23:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 18:04:33.297590
Title: AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment
Title（参考訳）: AIは認知的バイアスを受ける: LLMベースのバッチ関連性評価における閾値プライミングの探索的研究
Authors: Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu,
Abstract要約: 大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。関連判定におけるしきい値プライミング効果の影響について検討した。
参考スコア（独自算出の注目度）: 37.985947029716016
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision-making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.
Abstract（参考訳）: 認知バイアス(Cognitive bias)は、不合理な判断や問題のある意思決定につながる思考における体系的な偏見であり、様々な分野にわたって広く研究されている。近年、大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。 LLMの社会的偏見はよく研究されているが、認知的偏見は、特定のシナリオに焦点を当てた既存の研究により、より少ない注意を払っている。様々な意思決定文脈における認知バイアスのLLMへの影響は未解明のままである。関連判断におけるしきい値プライミング効果,中核的課題,およびIR(Information Retrieval)コミューニティ(IR)コミューニティにおける広く議論されている研究トピックの影響について検討した。プライミング効果は、特定の刺激への曝露がその後の行動や決定に無意識に影響を及ぼすときに起こる。 GPT-3.5, GPT-4, LLaMa2-13B, LLaMa2-70Bなどの文書関連スコア, バッチ長, LLMモデルでAI判定を行った。その結果, LLMは, 組み合わせやモデルによらず, 先行する文書が関連性が高い場合, 後続の文書に低スコアを与える傾向を示した。我々の発見は、LLM%u2019s判断は人間の判断と同様、しきい値プライミングバイアスの影響を受けていることを示しており、研究者やシステムエンジニアは、IRタスク以降におけるLLMの設計、評価、監査において、人間のような認知バイアスを考慮に入れるべきであることを示唆している。

関連論文リスト

An Empirical Study of the Anchoring Effect in LLMs: Existence, Mechanism, and Potential Mitigations [12.481311145515706]
本研究は、心が第一の情報に大きく依存する認知バイアスであるアンカー効果を考察し、影響のある判断を下す。アンカー効果の大規模研究を容易にするため,新しいデータセットであるSynAnchorsを導入する。以上の結果から, LLMのアンカリングバイアスは一般に浅層作用とともに存在し, 従来の手法では排除されないことが示唆された。
論文参考訳（メタデータ） (2025-05-21T11:33:54Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文参考訳（メタデータ） (2025-03-24T19:24:40Z)
Anchoring Bias in Large Language Models: An Experimental Study [5.229564709919574]
GPT-4やGeminiのような大規模言語モデル(LLM)は、非常に高度な人工知能を持っている。この研究は、初期情報が判断に不均衡に影響を及ぼす認知バイアスであるアンカーリングバイアスを論じる。
論文参考訳（メタデータ） (2024-12-09T15:45:03Z)
Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments [24.15688619889342]
大規模言語モデル(LLM)は、人間によって書かれた大きなコーパスで訓練され、様々なタスクで高いパフォーマンスを示す。人間は認知バイアスの影響を受けやすいため、LSMはこれらのバイアスに影響され、不合理な意思決定につながる。
論文参考訳（メタデータ） (2024-11-30T02:37:59Z)
The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges [4.65004369765875]
大規模言語モデル(LLM)がどの程度「合理的に」振舞うかは明らかになっていない。 LLMエージェントに埋め込まれた認知バイアスのリスクを実証的に確認した。 AIエージェントのデバイアスの複雑さと重要性を強調します。
論文参考訳（メタデータ） (2024-11-23T00:43:27Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文参考訳（メタデータ） (2024-08-20T10:26:02Z)
The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文参考訳（メタデータ） (2024-07-01T13:21:33Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。