論文の概要: In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information?
- arxiv url: http://arxiv.org/abs/2312.13096v1
- Date: Wed, 20 Dec 2023 15:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:16:57.271567
- Title: In Generative AI we Trust: Can Chatbots Effectively Verify Political
Information?
- Title(参考訳): ジェネレーティブAI: チャットボットは政治情報を効果的に検証できるか?
- Authors: Elizaveta Kuznetsova, Mykola Makhortykh, Victoria Vziatysheva, Martha
Stolze, Ani Baghumyan, Aleksandra Urman
- Abstract要約: 本稿では,2つの大規模言語モデル(LLM)ベースのチャットボットであるChatGPTとBing Chatの比較分析を行い,政治的情報の正確性を検出する。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線をどう評価するかを調査する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a comparative analysis of the ability of two large
language model (LLM)-based chatbots, ChatGPT and Bing Chat, recently rebranded
to Microsoft Copilot, to detect veracity of political information. We use AI
auditing methodology to investigate how chatbots evaluate true, false, and
borderline statements on five topics: COVID-19, Russian aggression against
Ukraine, the Holocaust, climate change, and LGBTQ+ related debates. We compare
how the chatbots perform in high- and low-resource languages by using prompts
in English, Russian, and Ukrainian. Furthermore, we explore the ability of
chatbots to evaluate statements according to political communication concepts
of disinformation, misinformation, and conspiracy theory, using
definition-oriented prompts. We also systematically test how such evaluations
are influenced by source bias which we model by attributing specific claims to
various political and social actors. The results show high performance of
ChatGPT for the baseline veracity evaluation task, with 72 percent of the cases
evaluated correctly on average across languages without pre-training. Bing Chat
performed worse with a 67 percent accuracy. We observe significant disparities
in how chatbots evaluate prompts in high- and low-resource languages and how
they adapt their evaluations to political communication concepts with ChatGPT
providing more nuanced outputs than Bing Chat. Finally, we find that for some
veracity detection-related tasks, the performance of chatbots varied depending
on the topic of the statement or the source to which it is attributed. These
findings highlight the potential of LLM-based chatbots in tackling different
forms of false information in online environments, but also points to the
substantial variation in terms of how such potential is realized due to
specific factors, such as language of the prompt or the topic.
- Abstract(参考訳): この記事では、2つの大きな言語モデル(LLM)ベースのチャットボットであるChatGPTとBing ChatをMicrosoft Copilotと改名し、政治的情報の正確性を検出する能力の比較分析を行う。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線の評価方法を調べます。
チャットボットは、英語、ロシア語、ウクライナ語でプロンプトを用いて、ハイリソース言語と低リソース言語でどのように機能するかを比較する。
さらに, 定義指向のプロンプトを用いて, 偽情報, 偽情報, 陰謀論といった政治的コミュニケーション概念に基づいて, 発言を評価するチャットボットの能力について検討する。
また,これらの評価がソースバイアスにどのように影響するかを体系的に検証し,様々な政治的・社会的アクターに特定のクレームを帰属させることによってモデル化する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
Bing Chatは67%の精度で悪化した。
チャットボットが高次・低次言語でどのようにプロンプトを評価するか,そしてその評価を政治コミュニケーションの概念にどのように適応させるかにおいて,ChatGPTはBing Chatよりもニュアンスなアウトプットを提供する。
最後に、いくつかの正確性検出関連タスクにおいて、チャットボットのパフォーマンスは、ステートメントのトピックや属性のソースによって異なることがわかった。
これらの知見は、オンライン環境における異なる形の偽情報に対処するLLMベースのチャットボットの可能性を強調し、また、プロンプトの言語やトピックといった特定の要因によって、その可能性がどのように実現されるかという点で、かなりの変化を示している。
関連論文リスト
- A Linguistic Comparison between Human and ChatGPT-Generated Conversations [9.022590646680095]
この研究は、ChatGPTが生成した会話と人間の会話を比較して、言語問合せと単語数分析を取り入れている。
結果は,人間の対話における多様性と信頼度は高いが,ChatGPTは社会的プロセス,分析的スタイル,認知,注意的焦点,ポジティブな感情的トーンといったカテゴリーに優れていた。
論文 参考訳(メタデータ) (2024-01-29T21:43:27Z) - Demonstrations of the Potential of AI-based Political Issue Polling [0.0]
そこで我々は,ChatGPTから人間ライクなサーベイ応答を抽出するための迅速なエンジニアリング手法を開発した。
我々は大規模な実験を行い、人間の調査よりもはるかに低コストで何千ものシミュレーションされた応答を問い合わせる。
ChatGPTは,様々な政策問題について,世論の平均レベルと分布の両方を予測するのに有効である。
しかし、人口レベルでの違いを予想することは成功していない。
論文 参考訳(メタデータ) (2023-07-10T12:17:15Z) - Adding guardrails to advanced chatbots [5.203329540700177]
2022年11月にChatGPTがローンチされ、AIの新しい時代が到来した。
さまざまな仕事のために、人間がチャットボットに取って代わられるのではないか、という懸念はすでにある。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-06-13T02:23:04Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency [28.255324166852535]
整合性評価のためのAIH(Addressing Inquiries about History)フレームワークを提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的な事実や意見を再宣言する。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
論文 参考訳(メタデータ) (2021-06-04T03:04:13Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - FinChat: Corpus and evaluation setup for Finnish chat conversations on
everyday topics [15.94497202872835]
フィンランドのチャットコーパス「FinChat」を公開している。
FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。
人間の評価では、チャットボットが生成した評価セットからの質問に対する応答は、主に非一貫性としてマークされる。
論文 参考訳(メタデータ) (2020-08-19T07:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。