論文の概要: Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset
- arxiv url: http://arxiv.org/abs/2512.18533v1
- Date: Sat, 20 Dec 2025 23:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.386421
- Title: Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset
- Title(参考訳): 政治フェイクニュース検出における一般化ギャップ:LIARデータセットに関する実証的研究
- Authors: S Mahmudul Hasan, Shaily Roy, Akib Jawad Nafis,
- Abstract要約: LIARベンチマークを用いて,9つの機械学習アルゴリズムの診断評価を行った。
モデルの重み付きF1スコアを超えないきめ細かい分類の「パフォーマンスシーリング」を発見した。
木に基づくアンサンブルの大規模な"一般化ギャップ"は、99%以上のトレーニング精度を達成したが、テストデータで約25%に崩壊した。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of linguistically subtle political disinformation poses a significant challenge to automated fact-checking systems. Despite increasing emphasis on complex neural architectures, the empirical limits of text-only linguistic modeling remain underexplored. We present a systematic diagnostic evaluation of nine machine learning algorithms on the LIAR benchmark. By isolating lexical features (Bag-of-Words, TF-IDF) and semantic embeddings (GloVe), we uncover a hard "Performance Ceiling", with fine-grained classification not exceeding a Weighted F1-score of 0.32 across models. Crucially, a simple linear SVM (Accuracy: 0.624) matches the performance of pre-trained Transformers such as RoBERTa (Accuracy: 0.620), suggesting that model capacity is not the primary bottleneck. We further diagnose a massive "Generalization Gap" in tree-based ensembles, which achieve more than 99% training accuracy but collapse to approximately 25% on test data, indicating reliance on lexical memorization rather than semantic inference. Synthetic data augmentation via SMOTE yields no meaningful gains, confirming that the limitation is semantic (feature ambiguity) rather than distributional. These findings indicate that for political fact-checking, increasing model complexity without incorporating external knowledge yields diminishing returns.
- Abstract(参考訳): 言語的に微妙な政治的偽情報の拡散は、自動化された事実チェックシステムに重大な課題をもたらす。
複雑なニューラルアーキテクチャに重点を置いているにもかかわらず、テキストのみの言語モデリングの実証的な限界はいまだに未発見のままである。
LIARベンチマークを用いて,9つの機械学習アルゴリズムの系統的診断評価を行った。
語彙的特徴(単語のBag-of-Words、TF-IDF)と意味的埋め込み(GloVe)を分離することにより、モデル全体で0.32の重み付きF1スコアを超えないきめ細かい分類を持つハードな「パフォーマンスシーリング」を明らかにする。
重要なのは、単純な線形SVM(精度:0.624)はRoBERTa(精度:0.620)のような事前訓練されたトランスフォーマーのパフォーマンスと一致し、モデルキャパシティが主要なボトルネックではないことを示唆している。
さらに,木系アンサンブルの大規模「一般化ギャップ」を診断し,99%以上のトレーニング精度を達成できるが,テストデータでは約25%に崩壊し,意味的推論よりも語彙記憶に依存していることを示す。
SMOTEによる合成データ拡張は意味のある利得を得られず、その制限が分布ではなく意味的(機能的あいまいさ)であることを確認する。
これらの結果は、政治的事実チェックにおいては、外部知識を組み込まずにモデル複雑性を増大させると、リターンが低下することを示している。
関連論文リスト
- The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness [0.284279467589473]
本稿では,データの表面特性を模倣する代わりに,人間のテキストを生成する認知過程をシミュレートするパラダイムシフトを提案する。
本稿では、非構造化テキストを構造化認知ベクトルにリバースエンジニアリングするPrompt-driven Cognitive Computing Framework(PMCSF)を紹介する。
表面データのコピーではなく、人間の認知的限界をモデル化することで、真の機能的ゲインを持つ合成データが実現できることが、我々の研究で示されています。
論文 参考訳(メタデータ) (2025-12-01T07:09:38Z) - A Theoretically Grounded Hybrid Ensemble for Reliable Detection of LLM-Generated Text [0.0]
本稿では,3つの相補的検出パラダイムを融合した,理論的に基礎付けられたハイブリッドアンサンブルを提案する。
中心となる新規性は、F1スコアを最大化する確率的単純度に基づいてアンサンブル重みを学習する最適化された重み付き投票フレームワークにある。
本システムでは、94.2%の精度と0.978のAUCを達成し、学術テキスト上での偽陽性を35%削減した。
論文 参考訳(メタデータ) (2025-11-27T06:42:56Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - EVolutionary Independent DEtermiNistiC Explanation [5.127310126394387]
本稿では進化的独立決定論的説明(EVIDENCE)理論を紹介する。
EVIDENCEはブラックボックスモデルから重要な信号を抽出する決定論的、モデルに依存しない方法を提供する。
EVIDENCEの実践的応用は、医療における診断精度の向上と音声信号分析の強化である。
論文 参考訳(メタデータ) (2025-01-20T12:05:14Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。