論文の概要: ConspirED: A Dataset for Cognitive Traits of Conspiracy Theories and Large Language Model Safety
- arxiv url: http://arxiv.org/abs/2508.20468v1
- Date: Thu, 28 Aug 2025 06:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.083929
- Title: ConspirED: A Dataset for Cognitive Traits of Conspiracy Theories and Large Language Model Safety
- Title(参考訳): Conspired: 共謀理論の認知的特性と大規模言語モデルの安全性のためのデータセット
- Authors: Luke Bates, Max Glockner, Preslav Nakov, Iryna Gurevych,
- Abstract要約: コンスピレーション(Conspired)は、一般的な認知特性に注釈を付けた最初の陰謀的内容のデータセットである。
我々は,比較的特徴を識別し,テキスト抽出において支配的特徴を決定する計算モデルを開発した。
我々は,大規模言語/推論モデル (LLM/LRM) を補間入力に対して頑健性を評価する。
- 参考スコア(独自算出の注目度): 87.90209836101353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conspiracy theories erode public trust in science and institutions while resisting debunking by evolving and absorbing counter-evidence. As AI-generated misinformation becomes increasingly sophisticated, understanding rhetorical patterns in conspiratorial content is important for developing interventions such as targeted prebunking and assessing AI vulnerabilities. We introduce ConspirED (CONSPIR Evaluation Dataset), which captures the cognitive traits of conspiratorial ideation in multi-sentence excerpts (80--120 words) from online conspiracy articles, annotated using the CONSPIR cognitive framework (Lewandowsky and Cook, 2020). ConspirED is the first dataset of conspiratorial content annotated for general cognitive traits. Using ConspirED, we (i) develop computational models that identify conspiratorial traits and determine dominant traits in text excerpts, and (ii) evaluate large language/reasoning model (LLM/LRM) robustness to conspiratorial inputs. We find that both are misaligned by conspiratorial content, producing output that mirrors input reasoning patterns, even when successfully deflecting comparable fact-checked misinformation.
- Abstract(参考訳): 陰謀説は、反証拠の進化と吸収に抵抗しながら、科学や機関に対する大衆の信頼を損なう。
AI生成の誤報がますます洗練されるにつれて、AIの脆弱性を標的とした調査や評価などの介入を開発する上で、陰謀的コンテンツにおける修辞的パターンを理解することが重要である。
本研究では,Conspired (CONSPIR Evaluation Dataset) について紹介する。Conspired (CONSPIR Evaluation Dataset) は,ConSPIR認知フレームワーク(Lewandowsky and Cook, 2020) を用いてアノテートされたオンライン共謀記事(80~120語)から,共謀的思考の認知特性を抽出する。
コンスピレーション(Conspired)は、一般的な認知特性に注釈を付けた最初の陰謀的内容のデータセットである。
Conspiredを使って、私たちは
一 テキストの抜粋において、比較的特徴を特定し、支配的特徴を決定する計算モデルを開発すること。
(II)大規模言語/推論モデル (LLM/LRM) の強靭性を補足的入力に対して評価する。
両者は相補的内容で一致せず、たとえ比較事実チェックの誤報を無視することに成功したとしても、入力推論パターンを反映する出力を生成する。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - Unveiling Online Conspiracy Theorists: a Text-Based Approach and Characterization [42.242551342068374]
我々は、共謀理論パターンを持つユーザと、そのような傾向を欠いたユーザからなるユーザからなる2つの異なるXデータセットの包括的分析を行った。
本研究の結果,他者に対する陰謀論者による語彙と言語の違いが明らかとなった。
我々は,871の豊富な特徴セットに基づいて陰謀論を広めるユーザを識別できる機械学習分類器を開発した。
論文 参考訳(メタデータ) (2024-05-21T08:07:38Z) - Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections [4.594855794205588]
この研究は、陰謀論に関する議論を分類するための一般的なスキームを確立する。
我々は、オンラインCTを分類するためのBERTベースのモデルをトレーニングするために、人間ラベル付き地上真実を利用する。
本研究は,最も活発な陰謀に関するRedditフォーラムの投稿を用いた,最初の大規模分類研究である。
論文 参考訳(メタデータ) (2024-03-29T20:29:12Z) - The Anatomy of Conspirators: Unveiling Traits using a Comprehensive
Twitter Dataset [0.0]
本稿では,2022年を通して共謀活動に従事しているアカウントを包含するTwitterデータセットを構築するための新しい手法を提案する。
この包括的な収集作業により、合計15万のアカウントと3700万のツイートがタイムラインから抽出された。
トピック,プロファイル,行動特性の3次元にわたる2つのグループの比較分析を行った。
論文 参考訳(メタデータ) (2023-08-29T09:35:23Z) - Codes, Patterns and Shapes of Contemporary Online Antisemitism and
Conspiracy Narratives -- an Annotation Guide and Labeled German-Language
Dataset in the Context of COVID-19 [0.0]
インターネット上の反ユダヤ的・陰謀論のコンテンツは、データ駆動型アルゴリズムアプローチを不可欠にしている。
我々は、新型コロナウイルスのパンデミックの文脈において、オンラインコンテンツにおける反ユダヤ的・陰謀的理論のためのアノテーションガイドを開発する。
我々は、コード化やホロコースト後のアンチ・セミズムのような特定の形のアンチ・セミズムを含む作業定義を提供する。
論文 参考訳(メタデータ) (2022-10-13T10:32:39Z) - Attacking Open-domain Question Answering by Injecting Misinformation [116.25434773461465]
質問応答モデル(QA)に対する誤報のリスクについて,オープンドメインQAモデルの誤報文書に対する感度について検討した。
実験により、QAモデルは誤情報による少量の証拠汚染に対して脆弱であることが示されている。
質問応答と誤情報検出を統合した誤情報認識型QAシステムの構築の必要性について論じる。
論文 参考訳(メタデータ) (2021-10-15T01:55:18Z) - The Truth is Out There: Investigating Conspiracy Theories in Text
Generation [66.01545519772527]
言語モデルが陰謀理論テキストを生成する可能性を検討する。
本研究は陰謀理論の解明のためにこれらのモデルをテストすることに焦点を当てている。
陰謀理論のトピック、機械生成陰謀理論、人為的陰謀理論からなる新しいデータセットを紹介します。
論文 参考訳(メタデータ) (2021-01-02T05:47:39Z) - Misinformation Has High Perplexity [55.47422012881148]
疑似クレームを教師なしの方法でデバンクするために, 難易度を活用することを提案する。
まず,これらの主張に類似した文に基づいて,科学的およびニュースソースから信頼性のある証拠を抽出する。
第2に,抽出したエビデンスを言語モデルにプライマリし,難易度スコアに基づいて与えられたクレームの正当性を評価する。
論文 参考訳(メタデータ) (2020-06-08T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。