論文の概要: Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset
- arxiv url: http://arxiv.org/abs/2512.18533v1
- Date: Sat, 20 Dec 2025 23:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.386421
- Title: Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset
- Title(参考訳): 政治フェイクニュース検出における一般化ギャップ:LIARデータセットに関する実証的研究
- Authors: S Mahmudul Hasan, Shaily Roy, Akib Jawad Nafis,
- Abstract要約: LIARベンチマークを用いて,9つの機械学習アルゴリズムの診断評価を行った。
モデルの重み付きF1スコアを超えないきめ細かい分類の「パフォーマンスシーリング」を発見した。
木に基づくアンサンブルの大規模な"一般化ギャップ"は、99%以上のトレーニング精度を達成したが、テストデータで約25%に崩壊した。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of linguistically subtle political disinformation poses a significant challenge to automated fact-checking systems. Despite increasing emphasis on complex neural architectures, the empirical limits of text-only linguistic modeling remain underexplored. We present a systematic diagnostic evaluation of nine machine learning algorithms on the LIAR benchmark. By isolating lexical features (Bag-of-Words, TF-IDF) and semantic embeddings (GloVe), we uncover a hard "Performance Ceiling", with fine-grained classification not exceeding a Weighted F1-score of 0.32 across models. Crucially, a simple linear SVM (Accuracy: 0.624) matches the performance of pre-trained Transformers such as RoBERTa (Accuracy: 0.620), suggesting that model capacity is not the primary bottleneck. We further diagnose a massive "Generalization Gap" in tree-based ensembles, which achieve more than 99% training accuracy but collapse to approximately 25% on test data, indicating reliance on lexical memorization rather than semantic inference. Synthetic data augmentation via SMOTE yields no meaningful gains, confirming that the limitation is semantic (feature ambiguity) rather than distributional. These findings indicate that for political fact-checking, increasing model complexity without incorporating external knowledge yields diminishing returns.
- Abstract(参考訳): 言語的に微妙な政治的偽情報の拡散は、自動化された事実チェックシステムに重大な課題をもたらす。
複雑なニューラルアーキテクチャに重点を置いているにもかかわらず、テキストのみの言語モデリングの実証的な限界はいまだに未発見のままである。
LIARベンチマークを用いて,9つの機械学習アルゴリズムの系統的診断評価を行った。
語彙的特徴(単語のBag-of-Words、TF-IDF)と意味的埋め込み(GloVe)を分離することにより、モデル全体で0.32の重み付きF1スコアを超えないきめ細かい分類を持つハードな「パフォーマンスシーリング」を明らかにする。
重要なのは、単純な線形SVM(精度:0.624)はRoBERTa(精度:0.620)のような事前訓練されたトランスフォーマーのパフォーマンスと一致し、モデルキャパシティが主要なボトルネックではないことを示唆している。
さらに,木系アンサンブルの大規模「一般化ギャップ」を診断し,99%以上のトレーニング精度を達成できるが,テストデータでは約25%に崩壊し,意味的推論よりも語彙記憶に依存していることを示す。
SMOTEによる合成データ拡張は意味のある利得を得られず、その制限が分布ではなく意味的(機能的あいまいさ)であることを確認する。
これらの結果は、政治的事実チェックにおいては、外部知識を組み込まずにモデル複雑性を増大させると、リターンが低下することを示している。
関連論文リスト
- Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - Self-Training the Neurochaos Learning Algorithm [0.0]
本研究では,この制約を克服するために,ニューロカオス学習(NL)としきい値に基づく自己学習(ST)手法を統合したハイブリッド半教師付き学習アーキテクチャを提案する。
提案した自己学習型ニューロカオス学習(NL+ST)アーキテクチャは,スタンドアロンSTモデルと比較して一貫して優れた性能向上を実現している。
論文 参考訳(メタデータ) (2026-01-03T10:24:01Z) - The Necessity of Imperfection:Reversing Model Collapse via Simulating Cognitive Boundedness [0.284279467589473]
本稿では,データの表面特性を模倣する代わりに,人間のテキストを生成する認知過程をシミュレートするパラダイムシフトを提案する。
本稿では、非構造化テキストを構造化認知ベクトルにリバースエンジニアリングするPrompt-driven Cognitive Computing Framework(PMCSF)を紹介する。
表面データのコピーではなく、人間の認知的限界をモデル化することで、真の機能的ゲインを持つ合成データが実現できることが、我々の研究で示されています。
論文 参考訳(メタデータ) (2025-12-01T07:09:38Z) - A Theoretically Grounded Hybrid Ensemble for Reliable Detection of LLM-Generated Text [0.0]
本稿では,3つの相補的検出パラダイムを融合した,理論的に基礎付けられたハイブリッドアンサンブルを提案する。
中心となる新規性は、F1スコアを最大化する確率的単純度に基づいてアンサンブル重みを学習する最適化された重み付き投票フレームワークにある。
本システムでは、94.2%の精度と0.978のAUCを達成し、学術テキスト上での偽陽性を35%削減した。
論文 参考訳(メタデータ) (2025-11-27T06:42:56Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - EVolutionary Independent DEtermiNistiC Explanation [5.127310126394387]
本稿では進化的独立決定論的説明(EVIDENCE)理論を紹介する。
EVIDENCEはブラックボックスモデルから重要な信号を抽出する決定論的、モデルに依存しない方法を提供する。
EVIDENCEの実践的応用は、医療における診断精度の向上と音声信号分析の強化である。
論文 参考訳(メタデータ) (2025-01-20T12:05:14Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。