論文の概要: The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges
- arxiv url: http://arxiv.org/abs/2411.15396v1
- Date: Sat, 23 Nov 2024 00:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.390906
- Title: The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges
- Title(参考訳): オンライン医療情報評価におけるデコイジレンマ : LLMと人間裁判官による信頼性評価の比較
- Authors: Jiqun Liu, Jiangen He,
- Abstract要約: 大規模言語モデル(LLM)がどの程度「合理的に」振舞うかは明らかになっていない。
LLMエージェントに埋め込まれた認知バイアスのリスクを実証的に確認した。
AIエージェントのデバイアスの複雑さと重要性を強調します。
- 参考スコア(独自算出の注目度): 4.65004369765875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Can AI be cognitively biased in automated information judgment tasks? Despite recent progresses in measuring and mitigating social and algorithmic biases in AI and large language models (LLMs), it is not clear to what extent LLMs behave "rationally", or if they are also vulnerable to human cognitive bias triggers. To address this open problem, our study, consisting of a crowdsourcing user experiment and a LLM-enabled simulation experiment, compared the credibility assessments by LLM and human judges under potential decoy effects in an information retrieval (IR) setting, and empirically examined the extent to which LLMs are cognitively biased in COVID-19 medical (mis)information assessment tasks compared to traditional human assessors as a baseline. The results, collected from a between-subject user experiment and a LLM-enabled replicate experiment, demonstrate that 1) Larger and more recent LLMs tend to show a higher level of consistency and accuracy in distinguishing credible information from misinformation. However, they are more likely to give higher ratings for misinformation due to the presence of a more salient, decoy misinformation result; 2) While decoy effect occurred in both human and LLM assessments, the effect is more prevalent across different conditions and topics in LLM judgments compared to human credibility ratings. In contrast to the generally assumed "rationality" of AI tools, our study empirically confirms the cognitive bias risks embedded in LLM agents, evaluates the decoy impact on LLMs against human credibility assessments, and thereby highlights the complexity and importance of debiasing AI agents and developing psychology-informed AI audit techniques and policies for automated judgment tasks and beyond.
- Abstract(参考訳): AIは、自動情報判断タスクに認知的にバイアスを負うことができるか?
AIと大規模言語モデル(LLM)における社会的およびアルゴリズム的バイアスの測定と緩和の最近の進歩にもかかわらず、LLMが「合理的に」どのように振る舞うか、あるいは人間の認知的バイアスの引き金にも弱いのかは明らかになっていない。
本研究は,クラウドソーシングによるユーザ実験とLCM対応シミュレーション実験からなり,情報検索(IR)環境下でのLCMと人的判断の信頼性評価を比較し,従来の人的評価と比べ,LLMの認知的偏見の度合いを実証的に検討した。
オブジェクト間のユーザ実験とLLM対応の複製実験から収集した結果が,それを実証した。
1) より大規模かつ近年のLCMでは, 信頼情報と誤情報とを区別する上で, 一貫性と精度が向上する傾向にある。
しかし、より健全でデコイな誤報の結果があるため、彼らは誤報に対する高い評価を与える傾向にある。
2) 人・中等度評価ではデコイ効果が認められたが, 人・中等度評価と比較すると, LLM判定の諸条件や話題に有意差は認められなかった。
我々の研究は、AIツールの一般的な「合理性」とは対照的に、LLMエージェントに埋め込まれた認知バイアスのリスクを経験的に確認し、人間の信頼性評価に対するLLMへの影響を評価し、AIエージェントのデバイアスの複雑さと重要性を強調し、心理学的なAI監査技術と自動判断タスクのポリシーを開発する。
関連論文リスト
- LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。
近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。
本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文 参考訳(メタデータ) (2025-04-27T02:14:21Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Evaluating Explanations Through LLMs: Beyond Traditional User Studies [7.377398767507683]
我々は,7つの大言語モデル(LLM)を用いた人間参加者を再現し,反事実的・因果的説明を比較検討したユーザスタディを再現する。
以上の結果から, (i) LLMは, 原研究の結論のほとんどを再現でき, (ii) 異なるLLMは, 結果のアライメントレベルが異なること, (iii) LLMメモリや出力変動性などの実験的要因がヒトの反応のアライメントに影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-10-23T11:31:52Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment [37.985947029716016]
大規模言語モデル(LLM)は高度な理解能力を示しているが、トレーニングデータから人間のバイアスを継承する可能性がある。
関連判定におけるしきい値プライミング効果の影響について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:23:15Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。
認知・生態的枠組みとしてメタ認知ミオピアを提案する。
我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文 参考訳(メタデータ) (2024-08-10T14:43:57Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。