論文の概要: News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT
3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking
- arxiv url: http://arxiv.org/abs/2306.17176v1
- Date: Sun, 18 Jun 2023 04:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 14:20:11.646255
- Title: News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT
3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking
- Title(参考訳): News Verifiers Showdown: News Fact-CheckingにおけるChatGPT 3.5, ChatGPT 4.0, Bing AI, Bardの比較評価
- Authors: Kevin Matthe Caramancion
- Abstract要約: OpenAIのChatGPT 3.5と4.0、GoogleのBard(LaMDA)、MicrosoftのBing AIが評価された。
その結果、全てのモデルで適度な熟練度を示し、平均スコアは100点中65.25点だった。
OpenAIのGPT-4.0のスコアは71であり、偽造と事実を区別する新しいLSMの能力の限界が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aimed to evaluate the proficiency of prominent Large Language
Models (LLMs), namely OpenAI's ChatGPT 3.5 and 4.0, Google's Bard(LaMDA), and
Microsoft's Bing AI in discerning the truthfulness of news items using black
box testing. A total of 100 fact-checked news items, all sourced from
independent fact-checking agencies, were presented to each of these LLMs under
controlled conditions. Their responses were classified into one of three
categories: True, False, and Partially True/False. The effectiveness of the
LLMs was gauged based on the accuracy of their classifications against the
verified facts provided by the independent agencies. The results showed a
moderate proficiency across all models, with an average score of 65.25 out of
100. Among the models, OpenAI's GPT-4.0 stood out with a score of 71,
suggesting an edge in newer LLMs' abilities to differentiate fact from
deception. However, when juxtaposed against the performance of human
fact-checkers, the AI models, despite showing promise, lag in comprehending the
subtleties and contexts inherent in news information. The findings highlight
the potential of AI in the domain of fact-checking while underscoring the
continued importance of human cognitive skills and the necessity for persistent
advancements in AI capabilities. Finally, the experimental data produced from
the simulation of this work is openly available on Kaggle.
- Abstract(参考訳): 本研究では,openai の chatgpt 3.5 と 4.0,google の bard (lamda) と microsoft の bing ai といった著名な大規模言語モデル (llm) の習熟度を評価することを目的とした。
独立したファクトチェック機関から提供された100のファクトチェックされたニュースアイテムは、制御された条件下でこれら各llmにそれぞれ提示された。
これらの回答は、true, false, and partial true/falseの3つのカテゴリの1つに分類された。
LLMの有効性は、独立機関が提供した検証事実に対する分類の正確さに基づいて評価された。
結果は全モデル中適度な熟練度を示し、平均スコアは100点中65.25点であった。
モデルのうち、OpenAIのGPT-4.0はスコア71で際立っており、偽造と事実を区別する新しいLSMの能力の限界が示唆された。
しかし、人間のファクトチェッカーのパフォーマンスに逆らうと、AIモデルは、約束を示すにもかかわらず、ニュース情報に固有の微妙さとコンテキストを理解できない。
この発見は、人間の認知スキルの重要性と、AI能力の継続的な進歩の必要性を強調しながら、ファクトチェックの領域におけるAIの可能性を強調している。
最後に、この研究のシミュレーションから得られた実験データは、kaggleで公開されている。
関連論文リスト
- From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI [0.0]
本研究では,大規模言語モデル(LLM)の有効性について検討した。
モデルが異なるデータセット上で人間より優れており、LLMがコモンセンスで推論できることを実証する。
回答者の66%がGPT-3.5の説明を「良い」か「優れている」と評価した。
論文 参考訳(メタデータ) (2024-07-04T09:38:49Z) - Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Fact-checking information from large language models can decrease headline discernment [6.814801748069122]
本稿では,人気大言語モデルが生成した事実確認情報が,政治ニュースの見出しの信条や共有意図に与える影響について検討する。
この情報は、見出しの正確さを識別したり、正確なニュースを共有したりする参加者の能力を大幅に向上させるものではない。
我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-21T15:47:37Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Inference-Time Intervention: Eliciting Truthful Answers from a Language Model [61.88942482411035]
Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の「真実性」を高める技術である。
ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。
以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-06T01:26:53Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability
Analysis against Human Performance [0.0]
ChatGPTとBardはLarge Language Models (LLM)に基づくAIチャットボットである
教育において、これらのAI技術はアセスメントと教育の応用のためにテストされてきた。
論文 参考訳(メタデータ) (2023-04-09T04:53:15Z) - FacTeR-Check: Semi-automated fact-checking through Semantic Similarity
and Natural Language Inference [61.068947982746224]
FacTeR-Checkは、ファクトチェックされた情報の検索、未確認のクレームの検証、ソーシャルメディア上での危険な情報の追跡を可能にする。
このアーキテクチャは、NLI19-SPと呼ばれる新しいデータセットを使って検証されている。
この結果から,各ベンチマークにおける最先端性能と,61種類のホアックスの時間経過に伴う進化の有用な解析結果が得られた。
論文 参考訳(メタデータ) (2021-10-27T15:44:54Z) - Machine Learning Explanations to Prevent Overtrust in Fake News
Detection [64.46876057393703]
本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討する。
我々は、ニュースレビューと共有インターフェースを設計し、ニュース記事のデータセットを作成し、4つの解釈可能なフェイクニュース検出アルゴリズムを訓練する。
説明可能なAIシステムについてより深く理解するために、説明プロセスにおけるユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス対策の相互作用について議論する。
論文 参考訳(メタデータ) (2020-07-24T05:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。