論文の概要: Debunking with Dialogue? Exploring AI-Generated Counterspeech to Challenge Conspiracy Theories
- arxiv url: http://arxiv.org/abs/2504.16604v1
- Date: Wed, 23 Apr 2025 10:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:55:04.658843
- Title: Debunking with Dialogue? Exploring AI-Generated Counterspeech to Challenge Conspiracy Theories
- Title(参考訳): 対話で議論する? 共謀理論に挑戦するAI生成の対抗策を探る
- Authors: Mareike Lisker, Christina Gottschalk, Helena Mihaljević,
- Abstract要約: 我々は,GPT-4o,Llama 3,Mistralが,構造化プロンプトによって提供される心理的研究から得られた対音声戦略を効果的に適用する能力を評価する。
以上の結果から, モデルはしばしば, 汎用的, 反復的, 表面的結果を生成することがわかった。
彼らは恐れを過度に認識し、しばしば事実、情報源、数字を幻覚させ、迅速な使用を問題にしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Counterspeech is a key strategy against harmful online content, but scaling expert-driven efforts is challenging. Large Language Models (LLMs) present a potential solution, though their use in countering conspiracy theories is under-researched. Unlike for hate speech, no datasets exist that pair conspiracy theory comments with expert-crafted counterspeech. We address this gap by evaluating the ability of GPT-4o, Llama 3, and Mistral to effectively apply counterspeech strategies derived from psychological research provided through structured prompts. Our results show that the models often generate generic, repetitive, or superficial results. Additionally, they over-acknowledge fear and frequently hallucinate facts, sources, or figures, making their prompt-based use in practical applications problematic.
- Abstract(参考訳): Counterspeechは有害なオンラインコンテンツに対する重要な戦略だが、専門家主導の取り組みのスケーリングは難しい。
大規模言語モデル (LLM) は潜在的な解決法であるが、陰謀論への対処には未研究である。
ヘイトスピーチとは違って、陰謀論と専門家が作成した反音声でコメントするデータセットは存在しない。
我々は,GPT-4o,Llama 3,Mistralの能力を評価し,構造化されたプロンプトを通じて提供される心理的研究から得られた反音声戦略を効果的に適用する能力を評価することにより,このギャップに対処する。
以上の結果から, モデルはしばしば, 汎用的, 反復的, 表面的結果を生成することがわかった。
さらに、彼らは恐れを過度に認識し、しばしば事実、情報源、数字を幻覚させ、実践的な応用において迅速な利用を問題にしている。
関連論文リスト
- The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances [23.908718176644634]
大規模言語モデル(LLM)は、専門家でないユーザによるリアルタイム情報ソースとしてますます頼りになってきている。
The Illusionist's Promptは,言語的ニュアンスを敵対的クエリに組み込んだ,新たな幻覚攻撃である。
我々の攻撃は、ユーザーの意図や意味を保ちながら、内部の事実的誤りを誘発する高度に伝達可能なイラストルプロンプトを自動生成する。
論文 参考訳(メタデータ) (2025-04-01T07:10:00Z) - Chaos with Keywords: Exposing Large Language Models Sycophantic Hallucination to Misleading Keywords and Evaluating Defense Strategies [47.92996085976817]
本研究では,Large Language Models (LLMs) の梅毒傾向について検討する。
LLMは、たとえ完全に正しくなくても、ユーザが聞きたいものと一致した回答を提供する傾向があります。
論文 参考訳(メタデータ) (2024-06-06T08:03:05Z) - Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections [4.594855794205588]
この研究は、陰謀論に関する議論を分類するための一般的なスキームを確立する。
我々は、オンラインCTを分類するためのBERTベースのモデルをトレーニングするために、人間ラベル付き地上真実を利用する。
本研究は,最も活発な陰謀に関するRedditフォーラムの投稿を用いた,最初の大規模分類研究である。
論文 参考訳(メタデータ) (2024-03-29T20:29:12Z) - Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。
我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。
評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:18:29Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。