論文の概要: Eroding the Truth-Default: A Causal Analysis of Human Susceptibility to Foundation Model Hallucinations and Disinformation in the Wild
- arxiv url: http://arxiv.org/abs/2601.22871v1
- Date: Fri, 30 Jan 2026 11:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.414555
- Title: Eroding the Truth-Default: A Causal Analysis of Human Susceptibility to Foundation Model Hallucinations and Disinformation in the Wild
- Title(参考訳): 真理の進化:野生における基礎モデル幻覚と偽情報に対する人間の感受性の因果解析
- Authors: Alexander Loth, Martin Kappes, Marc-Oliver Pahl,
- Abstract要約: フェイクニュースの親しみ」は、被曝が人間の差別者に対する敵対的訓練として機能する可能性を示唆する中間者候補として出現する。
これらの結果から,「プレバンキング」介入は,人口層区分よりも認知源モニタリングを対象とすべきであることが示唆された。
- 参考スコア(独自算出の注目度): 47.03825808787752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As foundation models (FMs) approach human-level fluency, distinguishing synthetic from organic content has become a key challenge for Trustworthy Web Intelligence. This paper presents JudgeGPT and RogueGPT, a dual-axis framework that decouples "authenticity" from "attribution" to investigate the mechanisms of human susceptibility. Analyzing 918 evaluations across five FMs (including GPT-4 and Llama-2), we employ Structural Causal Models (SCMs) as a principal framework for formulating testable causal hypotheses about detection accuracy. Contrary to partisan narratives, we find that political orientation shows a negligible association with detection performance ($r=-0.10$). Instead, "fake news familiarity" emerges as a candidate mediator ($r=0.35$), suggesting that exposure may function as adversarial training for human discriminators. We identify a "fluency trap" where GPT-4 outputs (HumanMachineScore: 0.20) bypass Source Monitoring mechanisms, rendering them indistinguishable from human text. These findings suggest that "pre-bunking" interventions should target cognitive source monitoring rather than demographic segmentation to ensure trustworthy information ecosystems.
- Abstract(参考訳): ファンデーションモデル(FM)が人間レベルの流布に近づくにつれ、有機コンテンツと合成物を区別することが、信頼できるWebインテリジェンスにとって重要な課題となっている。
本稿では,「音響性」と「貢献性」を分離し,人間の感受性のメカニズムを解明する2軸フレームワークであるジャッジGPTとローグGPTを提案する。
GPT-4とLlama-2を含む5つのFMの918評価を解析し,検出精度に関する検証可能な因果仮説を定式化するための主要な枠組みとして構造因果モデル(Structure Causal Models, SCMs)を用いた。
パルチザンの物語とは対照的に、政治的指向は検出性能(r=-0.10$)と無視できる関係を示す。
代わりに、「フェイクニュースの親しみ」は候補者の仲介者(r=0.35$)として現れ、露光は人間の差別者に対する敵の訓練として機能する可能性があることを示唆している。
GPT-4が出力する「周波数トラップ」(HumanMachineScore: 0.20)は、ソース監視機構をバイパスし、人間のテキストと区別できない。
これらの知見は,「プレバンキング」介入は,信頼に値する情報エコシステムを確保するために,人口分布のセグメンテーションよりも認知源モニタリングを標的にすべきであることを示唆している。
関連論文リスト
- The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness [0.284279467589473]
本稿では,データの表面特性を模倣する代わりに,人間のテキストを生成する認知過程をシミュレートするパラダイムシフトを提案する。
本稿では、非構造化テキストを構造化認知ベクトルにリバースエンジニアリングするPrompt-driven Cognitive Computing Framework(PMCSF)を紹介する。
表面データのコピーではなく、人間の認知的限界をモデル化することで、真の機能的ゲインを持つ合成データが実現できることが、我々の研究で示されています。
論文 参考訳(メタデータ) (2025-12-01T07:09:38Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - Benchmark on Peer Review Toxic Detection: A Challenging Task with a New Dataset [6.106100820330045]
この研究は、ピアレビューにおける毒性の検出という、重要だが未調査の領域を探求する。
まず、4つの異なるカテゴリにわたるピアレビューの毒性を定義し、OpenReviewプラットフォームからピアレビューのデータセットをキュレートする。
我々は、専用毒性検出モデルや感情分析モデルなど、様々なモデルをベンチマークする。
論文 参考訳(メタデータ) (2025-02-01T23:01:39Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。