論文の概要: The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges
- arxiv url: http://arxiv.org/abs/2411.15396v1
- Date: Sat, 23 Nov 2024 00:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:02.829211
- Title: The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges
- Title(参考訳): オンライン医療情報評価におけるデコイジレンマ : LLMと人間裁判官による信頼性評価の比較
- Authors: Jiqun Liu, Jiangen He,
- Abstract要約: 大規模言語モデル(LLM)がどの程度「合理的に」振舞うかは明らかになっていない。
LLMエージェントに埋め込まれた認知バイアスのリスクを実証的に確認した。
AIエージェントのデバイアスの複雑さと重要性を強調します。
- 参考スコア(独自算出の注目度): 4.65004369765875
- License:
- Abstract: Can AI be cognitively biased in automated information judgment tasks? Despite recent progresses in measuring and mitigating social and algorithmic biases in AI and large language models (LLMs), it is not clear to what extent LLMs behave "rationally", or if they are also vulnerable to human cognitive bias triggers. To address this open problem, our study, consisting of a crowdsourcing user experiment and a LLM-enabled simulation experiment, compared the credibility assessments by LLM and human judges under potential decoy effects in an information retrieval (IR) setting, and empirically examined the extent to which LLMs are cognitively biased in COVID-19 medical (mis)information assessment tasks compared to traditional human assessors as a baseline. The results, collected from a between-subject user experiment and a LLM-enabled replicate experiment, demonstrate that 1) Larger and more recent LLMs tend to show a higher level of consistency and accuracy in distinguishing credible information from misinformation. However, they are more likely to give higher ratings for misinformation due to the presence of a more salient, decoy misinformation result; 2) While decoy effect occurred in both human and LLM assessments, the effect is more prevalent across different conditions and topics in LLM judgments compared to human credibility ratings. In contrast to the generally assumed "rationality" of AI tools, our study empirically confirms the cognitive bias risks embedded in LLM agents, evaluates the decoy impact on LLMs against human credibility assessments, and thereby highlights the complexity and importance of debiasing AI agents and developing psychology-informed AI audit techniques and policies for automated judgment tasks and beyond.
- Abstract(参考訳): AIは、自動情報判断タスクに認知的にバイアスを負うことができるか?
AIと大規模言語モデル(LLM)における社会的およびアルゴリズム的バイアスの測定と緩和の最近の進歩にもかかわらず、LLMが「合理的に」どのように振る舞うか、あるいは人間の認知的バイアスの引き金にも弱いのかは明らかになっていない。
本研究は,クラウドソーシングによるユーザ実験とLCM対応シミュレーション実験からなり,情報検索(IR)環境下でのLCMと人的判断の信頼性評価を比較し,従来の人的評価と比べ,LLMの認知的偏見の度合いを実証的に検討した。
オブジェクト間のユーザ実験とLLM対応の複製実験から収集した結果が,それを実証した。
1) より大規模かつ近年のLCMでは, 信頼情報と誤情報とを区別する上で, 一貫性と精度が向上する傾向にある。
しかし、より健全でデコイな誤報の結果があるため、彼らは誤報に対する高い評価を与える傾向にある。
2) 人・中等度評価ではデコイ効果が認められたが, 人・中等度評価と比較すると, LLM判定の諸条件や話題に有意差は認められなかった。
我々の研究は、AIツールの一般的な「合理性」とは対照的に、LLMエージェントに埋め込まれた認知バイアスのリスクを経験的に確認し、人間の信頼性評価に対するLLMへの影響を評価し、AIエージェントのデバイアスの複雑さと重要性を強調し、心理学的なAI監査技術と自動判断タスクのポリシーを開発する。
関連論文リスト
- Investigating the Impact of LLM Personality on Cognitive Bias Manifestation in Automated Decision-Making Tasks [4.65004369765875]
パーソナリティ特性は、バイアスの増幅または減少において重要な役割を果たす。
良心と積極性は一般に偏見緩和戦略の有効性を高める可能性がある。
論文 参考訳(メタデータ) (2025-02-20T03:15:54Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment [37.985947029716016]
大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。
関連判定におけるしきい値プライミング効果の影響について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:23:15Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
認知・生態的枠組みとしてメタ認知ミオピアを提案する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文 参考訳(メタデータ) (2024-08-10T14:43:57Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。