論文の概要: Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking
- arxiv url: http://arxiv.org/abs/2504.19940v1
- Date: Thu, 24 Apr 2025 18:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.506401
- Title: Assessing the Potential of Generative Agents in Crowdsourced Fact-Checking
- Title(参考訳): クラウドソーシング型Fact-Checkingにおける生成剤の可能性評価
- Authors: Luigia Costabile, Gian Marco Orlando, Valerio La Gatta, Vincenzo Moscato,
- Abstract要約: 大規模言語モデル(LLM)は、ファクトチェックタスク全体で強いパフォーマンスを示している。
本稿では,伝統的にヒトの群集に予約されていた事実確認作業に,生成エージェントが有意義に寄与するかどうかを考察する。
エージェント・群衆は、誠実さの分類において人間の群衆より優れ、内部の一貫性が高く、社会的および認知的バイアスに対する感受性が低下している。
- 参考スコア(独自算出の注目度): 7.946359845249688
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing spread of online misinformation has created an urgent need for scalable, reliable fact-checking solutions. Crowdsourced fact-checking - where non-experts evaluate claim veracity - offers a cost-effective alternative to expert verification, despite concerns about variability in quality and bias. Encouraged by promising results in certain contexts, major platforms such as X (formerly Twitter), Facebook, and Instagram have begun shifting from centralized moderation to decentralized, crowd-based approaches. In parallel, advances in Large Language Models (LLMs) have shown strong performance across core fact-checking tasks, including claim detection and evidence evaluation. However, their potential role in crowdsourced workflows remains unexplored. This paper investigates whether LLM-powered generative agents - autonomous entities that emulate human behavior and decision-making - can meaningfully contribute to fact-checking tasks traditionally reserved for human crowds. Using the protocol of La Barbera et al. (2024), we simulate crowds of generative agents with diverse demographic and ideological profiles. Agents retrieve evidence, assess claims along multiple quality dimensions, and issue final veracity judgments. Our results show that agent crowds outperform human crowds in truthfulness classification, exhibit higher internal consistency, and show reduced susceptibility to social and cognitive biases. Compared to humans, agents rely more systematically on informative criteria such as Accuracy, Precision, and Informativeness, suggesting a more structured decision-making process. Overall, our findings highlight the potential of generative agents as scalable, consistent, and less biased contributors to crowd-based fact-checking systems.
- Abstract(参考訳): オンラインの誤情報の普及は、スケーラブルで信頼性の高いファクトチェックソリューションに対する緊急の需要を生み出している。
クラウドソーシングのファクトチェック — 非専門家がクレームの妥当性を評価する — は、品質とバイアスの多様性に関する懸念にもかかわらず、専門家による検証に代わる費用対効果を提供する。
X(元Twitter)、Facebook、Instagramといった主要なプラットフォームは、中央集権的なモデレーションから、分散型のクラウドベースのアプローチへとシフトし始めた。
並行して、LLM(Large Language Models)の進歩は、クレーム検出やエビデンス評価など、中核的なファクトチェックタスクに対して強いパフォーマンスを示している。
しかし、クラウドソースワークフローにおける彼らの潜在的な役割は、まだ解明されていない。
本稿では,人的行動や意思決定をエミュレートする自律的な主体であるLCMによる生成エージェントが,伝統的に人的集団に予約されていた事実確認作業に有意義に寄与するかどうかを考察する。
La Barbera et al (2024)のプロトコルを用いて、多様な人口統計学的およびイデオロギー的プロファイルを持つ生成エージェントの群集をシミュレートする。
エージェントは証拠を回収し、複数の品質次元に沿ってクレームを評価し、最終的な正確性判定を発行する。
以上の結果から, エージェント群集は, 真理性分類において, 人の群集より優れ, 内部の一貫性が向上し, 社会的・認知的偏見への感受性が低下していることが示唆された。
人間と比較すると、エージェントは正確性、正確性、情報伝達性といった情報的基準を体系的に頼りにしており、より構造化された意思決定プロセスを示している。
全体としては、生成エージェントは、クラウドベースのファクトチェックシステムに対する、スケーラブルで一貫性があり、バイアスの少ないコントリビュータとしての可能性を強調します。
関連論文リスト
- MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。
本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。
以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文 参考訳(メタデータ) (2024-10-13T18:16:50Z) - AI Agents That Matter [11.794931453828974]
AIエージェントはエキサイティングな新しい研究方向であり、エージェント開発はベンチマークによって駆動される。
他のメトリクスに注意せずに正確性に焦点が当てられている。
モデルと下流の開発者のベンチマークの必要性が混じり合っている。
多くのエージェントベンチマークはホールトアウトセットが不十分であり、時にはまったくない。
論文 参考訳(メタデータ) (2024-07-01T17:48:14Z) - How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models [95.44559524735308]
大規模言語またはマルチモーダルモデルに基づく検証は、偽コンテンツや有害コンテンツの拡散を緩和するためのオンラインポリシングメカニズムをスケールアップするために提案されている。
我々は,知識伝達の初期研究を通じて,継続的な更新を行うことなく基礎モデルの性能向上の限界をテストする。
最近の2つのマルチモーダルなファクトチェックベンチマークであるMochegとFakedditの結果は、知識伝達戦略がファクドディットのパフォーマンスを最先端よりも1.7%向上し、Mochegのパフォーマンスを2.9%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-06-29T08:39:07Z) - Mitigating Biases in Collective Decision-Making: Enhancing Performance in the Face of Fake News [4.413331329339185]
これらのバイアスが偽ニュースの広範的問題に与える影響を、偽ニュースの見出しを識別する人間の能力を評価することによって検討する。
センシティブな特徴を含む見出しに焦点を合わせることで、人間の反応がバイアスによってどのように形作られるかを探るため、包括的なデータセットを集めます。
人口統計学的要因,見出しカテゴリー,情報の提示方法が人的判断の誤りに大きく影響していることを示す。
論文 参考訳(メタデータ) (2024-03-11T12:08:08Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Statistical discrimination in learning agents [64.78141757063142]
統計的差別は、訓練人口のバイアスとエージェントアーキテクチャの両方の関数としてエージェントポリシーに現れる。
我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。
論文 参考訳(メタデータ) (2021-10-21T18:28:57Z) - Leveraging Clickstream Trajectories to Reveal Low-Quality Workers in
Crowdsourced Forecasting Platforms [22.995941896769843]
本稿では,クリックストリームトラジェクトリを用いた作業者のクラスタ識別のための計算フレームワークを提案する。
このフレームワークは、群衆のコンセンサスから遠く離れた精度の予測を行う労働者など、さまざまなタイプのアンダーパフォーマーを明らかにすることができる。
本研究は, クリックストリームクラスタリングと分析が, 群集の知恵を活かしたプラットフォームにおけるクラウドワーカーのパフォーマンスを診断するための基本的なツールであることを示唆する。
論文 参考訳(メタデータ) (2020-09-04T00:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。