論文の概要: GenAI vs. Human Fact-Checkers: Accurate Ratings, Flawed Rationales
- arxiv url: http://arxiv.org/abs/2502.14943v1
- Date: Thu, 20 Feb 2025 17:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:17.725599
- Title: GenAI vs. Human Fact-Checkers: Accurate Ratings, Flawed Rationales
- Title(参考訳): GenAI vs. Human Fact-Checkers: 正確なレーティング、違法な合理化
- Authors: Yuehong Cassandra Tai, Khushi Navin Patni, Nicholas Daniel Hemauer, Bruce Desmarais, Yu-Ru Lin,
- Abstract要約: GPT-4oは、消費者向けアプリケーションでもっとも使われているAIモデルの一つで、他のモデルよりも優れているが、すべてのモデルは、人間のコーダーとの適度な合意しか示さない。
また,要約コンテンツと完全コンテンツ入力の有効性を評価し,要約コンテンツが精度を犠牲にすることなく効率を向上させることを約束していることを確認した。
- 参考スコア(独自算出の注目度): 2.3475022003300055
- License:
- Abstract: Despite recent advances in understanding the capabilities and limits of generative artificial intelligence (GenAI) models, we are just beginning to understand their capacity to assess and reason about the veracity of content. We evaluate multiple GenAI models across tasks that involve the rating of, and perceived reasoning about, the credibility of information. The information in our experiments comes from content that subnational U.S. politicians post to Facebook. We find that GPT-4o, one of the most used AI models in consumer applications, outperforms other models, but all models exhibit only moderate agreement with human coders. Importantly, even when GenAI models accurately identify low-credibility content, their reasoning relies heavily on linguistic features and ``hard'' criteria, such as the level of detail, source reliability, and language formality, rather than an understanding of veracity. We also assess the effectiveness of summarized versus full content inputs, finding that summarized content holds promise for improving efficiency without sacrificing accuracy. While GenAI has the potential to support human fact-checkers in scaling misinformation detection, our results caution against relying solely on these models.
- Abstract(参考訳): 近年、生成人工知能(GenAI)モデルの能力と限界の理解が進んでいるにもかかわらず、我々はコンテンツの有効性を評価し、判断する能力について理解し始めている。
我々は、情報の信頼性を評価・認識するタスクにまたがる複数のGenAIモデルを評価する。
私たちの実験の情報は、米国の政治家がFacebookに投稿したコンテンツから来ています。
GPT-4oは、消費者向けアプリケーションでもっとも使われているAIモデルの一つで、他のモデルよりも優れていますが、すべてのモデルは、人間のコーダとの適度な合意しか示していません。
重要なことは、GenAIモデルが精度の低いコンテンツを正確に識別しても、その推論は、正確さの理解よりも、詳細度、情報源の信頼性、言語形式性のレベルなど、言語的特徴や「ハード」の基準に大きく依存している。
また,要約コンテンツと完全コンテンツ入力の有効性を評価し,要約コンテンツが精度を犠牲にすることなく効率を向上させることを約束していることを確認した。
GenAIは、誤情報検出のスケーリングにおいて、人間のファクトチェッカーをサポートする可能性があるが、その結果は、これらのモデルにのみ依存しないように注意する。
関連論文リスト
- Detecting AI-Generated Text in Educational Content: Leveraging Machine Learning and Explainable AI for Academic Integrity [1.1137087573421256]
本研究は、学生労働におけるAI生成コンテンツを検出するツールを提供することにより、学術的整合性を高めることを目的とする。
我々は,CyberHumanAIデータセットを用いて,機械学習(ML)およびディープラーニング(DL)アルゴリズムの評価を行った。
GPTZeroは、Pure AI、Pure Human、Mixed Classの分類を行う場合、48.5%の精度で約77.5%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-06T18:34:20Z) - Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究
我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。
我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文 参考訳(メタデータ) (2024-10-21T06:22:51Z) - GenAI Arena: An Open Evaluation Platform for Generative Models [33.246432399321826]
本稿では,異なる画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、より民主的で正確なモデルパフォーマンスの指標を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのタスクをカバーしている。
論文 参考訳(メタデータ) (2024-06-06T20:15:42Z) - The Influencer Next Door: How Misinformation Creators Use GenAI [1.1650821883155187]
我々は、非専門家がGenAIをリミックス、再パッケージ、そして(再)コンテンツの制作に利用し、彼らの個人的ニーズや欲求に応えていることに気付きました。
我々は、これらの突発的GenAIの使用が、新しいまたは加速された誤情報障害をいかに生み出すかを分析する。
論文 参考訳(メタデータ) (2024-05-22T11:40:22Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Can Explainable AI Explain Unfairness? A Framework for Evaluating
Explainable AI [3.4823710414760516]
モデル行動の翻訳におけるXAIツールの強みにもかかわらず、批判はXAIツールがフェアウォッシングツールとしての影響を懸念している。
私たちは、バイアスと公平性の問題を検知し、対処する能力に関して、説明可能なAIツールを評価するためのフレームワークを作成しました。
モデルの振る舞いを単純化し、説明する能力があるにもかかわらず、多くの著名なXAIツールはバイアスを検出するのに重要な機能を欠いていることがわかった。
論文 参考訳(メタデータ) (2021-06-14T15:14:03Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。