論文の概要: TAB-AUDIT: Detecting AI-Fabricated Scientific Tables via Multi-View Likelihood Mismatch
- arxiv url: http://arxiv.org/abs/2603.19712v1
- Date: Fri, 20 Mar 2026 07:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.041785
- Title: TAB-AUDIT: Detecting AI-Fabricated Scientific Tables via Multi-View Likelihood Mismatch
- Title(参考訳): TAB-AUDIT:マルチビューライクなミスマッチによるAIファブリケーションされた科学テーブルの検出
- Authors: Shuo Huang, Yan Pen, Lizhen Qu,
- Abstract要約: 経験的NLP論文におけるAI生成科学表の検出に関する最初の体系的研究について述べる。
FabTabは、テーブル付き作成された原稿の最初のベンチマークデータセットである。
本研究は,AIによる科学的不正を検出するための重要な法医学的信号として,実験表を強調した。
- 参考スコア(独自算出の注目度): 20.608491244315868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated fabricated scientific manuscripts raise growing concerns with large-scale breaches of academic integrity. In this work, we present the first systematic study on detecting AI-generated fabricated scientific tables in empirical NLP papers, as information in tables serve as critical evidence for claims. We construct FabTab, the first benchmark dataset of fabricated manuscripts with tables, comprising 1,173 AI-generated papers and 1,215 human-authored ones in empirical NLP. Through a comprehensive analysis, we identify systematic differences between fabricated and real tables and operationalize them into a set of discriminative features within the TAB-AUDIT framework. The key feature, within-table mismatch, captures the perplexity gap between a table's skeleton and its numerical content. Experimental results show that RandomForest built on these features significantly outperform prior state-of-the-art methods, achieving 0.987 AUROC in-domain and 0.883 AUROC out-of-domain. Our findings highlight experimental tables as a critical forensic signal for detecting AI-generated scientific fraud and provide a new benchmark for future research.
- Abstract(参考訳): AIによって作成された科学写本は、学術的完全性の大規模な侵害に対する関心を高めている。
本研究は,実験的なNLP論文において,AIが生成した科学表を検出するための最初の体系的研究である。
我々は,1,173件のAI生成論文と1,215件の人為的なNLPからなる,テーブル付き製写本の最初のベンチマークデータセットであるFabTabを構築した。
包括的分析により、製造されたテーブルと実際のテーブルの系統的差異を識別し、TAB-AUDITフレームワーク内の識別的特徴のセットとして運用する。
重要な特徴である、テーブル内ミスマッチは、テーブルのスケルトンとその数値内容の間の複雑なギャップをキャプチャする。
実験の結果,これらの特徴に基づいて構築されたRandomForestは最先端の手法よりも優れており,0.987 AUROCのドメイン内および0.883 AUROCのドメイン外を達成できた。
本研究は,AIによる科学的不正を検出するための重要な法医学的信号として実験表を取り上げ,今後の研究のための新しいベンチマークを提供する。
関連論文リスト
- AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - Span-level Detection of AI-generated Scientific Text via Contrastive Learning and Structural Calibration [2.105564340986074]
Sci-SpanDetはAI生成した学術テキストを検出するための構造認識フレームワークである。
セクション条件付きスタイリスティックモデリングとマルチレベルコントラスト学習を組み合わせることで、人間のニュアンスとAIの違いを捉える。
F1(AI)は80.17、AUROCは92.63、Span-F1は74.36である。
論文 参考訳(メタデータ) (2025-10-01T13:35:14Z) - Uncertainty-Aware Complex Scientific Table Data Extraction [6.913734410452428]
テーブル構造認識(TSR)と光学文字認識(OCR)は、科学文書中のテーブルから構造化データを抽出する上で重要な役割を担っている。
TSRとOCRの上に構築された既存の抽出フレームワークは、しばしば抽出結果の不確実性の定量化に失敗する。
本稿では,共形予測に基づく複雑な科学表のための不確実性を考慮したデータ抽出を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:36:15Z) - BioDSA-1K: Benchmarking Data Science Agents for Biomedical Research [29.469867701731374]
BioDSA-1Kは1029の仮説中心のタスクと1,177の分析計画からなる。
このベンチマークは,(1)仮説決定精度,(2)証拠と結論の整合性,(3)推論過程の正しさ,(4)AI生成解析コードの実行可能性の4つの軸に沿った評価を可能にする。
論文 参考訳(メタデータ) (2025-05-22T01:02:21Z) - WithdrarXiv: A Large-Scale Dataset for Retraction Study [33.782357627001154]
本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
論文 参考訳(メタデータ) (2024-12-04T23:36:23Z) - Beyond Individual Input for Deep Anomaly Detection on Tabular Data [0.0]
異常検出は、金融、医療、サイバーセキュリティなど、多くの領域において不可欠である。
私たちの知る限りでは、この機能機能とサンプルサンプル依存関係をうまく組み合わせる最初の作業です。
提案手法は,F1スコアとAUROCをそれぞれ2.4%,AUROCを1.2%上回り,最先端性能を実現している。
論文 参考訳(メタデータ) (2023-05-24T13:13:26Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。