論文の概要: What if Deception Cannot be Detected? A Cross-Linguistic Study on the Limits of Deception Detection from Text
- arxiv url: http://arxiv.org/abs/2505.13147v1
- Date: Mon, 19 May 2025 14:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.64277
- Title: What if Deception Cannot be Detected? A Cross-Linguistic Study on the Limits of Deception Detection from Text
- Title(参考訳): 誤認が検出できない場合 : テキストによる誤認検出の限界に関する言語横断的研究
- Authors: Aswathy Velutharambath, Roman Klinger, Kai Sassenberg,
- Abstract要約: 著者の主張と真実の信念の相違として, 虚偽を定め, 信念に基づく虚偽の枠組みを導入する。
我々は3つのコーパスを構築し、総称してDeFaBelとよばれる。
これらのコーパスを用いて、一般的に報告されている偽装の言語的手がかりを評価する。
- 参考スコア(独自算出の注目度): 10.912953196817554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Can deception be detected solely from written text? Cues of deceptive communication are inherently subtle, even more so in text-only communication. Yet, prior studies have reported considerable success in automatic deception detection. We hypothesize that such findings are largely driven by artifacts introduced during data collection and do not generalize beyond specific datasets. We revisit this assumption by introducing a belief-based deception framework, which defines deception as a misalignment between an author's claims and true beliefs, irrespective of factual accuracy, allowing deception cues to be studied in isolation. Based on this framework, we construct three corpora, collectively referred to as DeFaBel, including a German-language corpus of deceptive and non-deceptive arguments and a multilingual version in German and English, each collected under varying conditions to account for belief change and enable cross-linguistic analysis. Using these corpora, we evaluate commonly reported linguistic cues of deception. Across all three DeFaBel variants, these cues show negligible, statistically insignificant correlations with deception labels, contrary to prior work that treats such cues as reliable indicators. We further benchmark against other English deception datasets following similar data collection protocols. While some show statistically significant correlations, effect sizes remain low and, critically, the set of predictive cues is inconsistent across datasets. We also evaluate deception detection using feature-based models, pretrained language models, and instruction-tuned large language models. While some models perform well on established deception datasets, they consistently perform near chance on DeFaBel. Our findings challenge the assumption that deception can be reliably inferred from linguistic cues and call for rethinking how deception is studied and modeled in NLP.
- Abstract(参考訳): 虚偽は、書かれたテキストからのみ検出できるのか?
偽りのコミュニケーションのキューは本質的に微妙であり、テキストのみのコミュニケーションではなおさらだ。
しかし、以前の研究では、自動偽装検出でかなりの成功を収めたと報告されている。
これらの発見は、データ収集中に導入されたアーティファクトによって主に駆動され、特定のデータセットを超えて一般化されない、という仮説を立てる。
本論では, 事実の正確性に関係なく, 事実の主張と真の信念の相違として, 虚偽を個別に研究することができるという, 信念に基づく虚偽の枠組みを導入することにより, この仮定を再考する。
この枠組みに基づいて、我々は3つのコーパスを構築し、総称してDeFaBelとよばれる。これには、弁証的および非弁証的議論のドイツ語コーパスと、ドイツ語と英語の多言語版が含まれ、それぞれ異なる条件下で収集され、信念の変化を考慮し、言語間分析を可能にする。
これらのコーパスを用いて、一般的に報告されている偽装の言語的手がかりを評価する。
3つのDeFaBel変種にまたがって、これらのキューは、信頼できる指標として扱う以前の研究とは対照的に、偽装ラベルと統計的に重要でない相関を示す。
さらに、同様のデータ収集プロトコルに従って、他の英語の偽装データセットに対してベンチマークを行う。
統計的に有意な相関を示すものもあるが、効果の大きさは依然として低く、重要な点として、予測的手がかりの集合はデータセット間で矛盾する。
また,特徴ベースモデル,事前学習型言語モデル,命令調整型大規模言語モデルを用いた誤検出の評価を行った。
確立された騙しデータセットでは、いくつかのモデルはうまく機能するが、DeFaBelでは、常にほぼ確実に機能する。
本研究は, 言語的手がかりから, 真偽を確実に推測できるという仮定に挑戦し, 真偽をNLPでどのように研究し, モデル化するかを再考するよう求めている。
関連論文リスト
- How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。
信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。
確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-09-30T10:23:13Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - UNIDECOR: A Unified Deception Corpus for Cross-Corpus Deception
Detection [17.016156702855604]
我々は,その違いを理解するために,データセット間での誤読の言語的手がかりの相関分析を行う。
クロス・コーパス・モデリング実験を行い、クロス・ドメインの一般化が困難であることを示す。
統一偽装コーパス(UNIDECOR)はhttps://www.ims.uni-stuttgart.de/data/unidecorから得ることができる。
論文 参考訳(メタデータ) (2023-06-05T12:23:04Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。