論文の概要: VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking
- arxiv url: http://arxiv.org/abs/2601.08611v1
- Date: Tue, 13 Jan 2026 14:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.2401
- Title: VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking
- Title(参考訳): VeriTaS: マルチモーダルなFact-Checkingのための最初の動的ベンチマーク
- Authors: Mark Rothermel, Marcus Kornmann, Marcus Rohrbach, Anna Rohrbach,
- Abstract要約: We introduced Verified Theses and Statements (VeriTaS, first dynamic benchmark for multimodal Automated Fact-Checking (AFC)。
VeriTaSは、54言語にわたる108のプロのファクトチェック組織による24,000の現実世界のクレームで構成されている。
自動アノテーションは人間の判断と密接に一致していることを示す。
- 参考スコア(独自算出の注目度): 16.671088521668864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing scale of online misinformation urgently demands Automated Fact-Checking (AFC). Existing benchmarks for evaluating AFC systems, however, are largely limited in terms of task scope, modalities, domain, language diversity, realism, or coverage of misinformation types. Critically, they are static, thus subject to data leakage as their claims enter the pretraining corpora of LLMs. As a result, benchmark performance no longer reliably reflects the actual ability to verify claims. We introduce Verified Theses and Statements (VeriTaS), the first dynamic benchmark for multimodal AFC, designed to remain robust under ongoing large-scale pretraining of foundation models. VeriTaS currently comprises 24,000 real-world claims from 108 professional fact-checking organizations across 54 languages, covering textual and audiovisual content. Claims are added quarterly via a fully automated seven-stage pipeline that normalizes claim formulation, retrieves original media, and maps heterogeneous expert verdicts to a novel, standardized, and disentangled scoring scheme with textual justifications. Through human evaluation, we demonstrate that the automated annotations closely match human judgments. We commit to update VeriTaS in the future, establishing a leakage-resistant benchmark, supporting meaningful AFC evaluation in the era of rapidly evolving foundation models. We will make the code and data publicly available.
- Abstract(参考訳): オンライン誤報の規模が大きくなると、緊急にAFC(Automated Fact-Checking)が要求される。
しかし、AFCシステムを評価するための既存のベンチマークは、タスクスコープ、モダリティ、ドメイン、言語多様性、リアリズム、誤情報型の範囲で大きく制限されている。
批判的に言えば、それらは静的であり、その主張がLLMの事前学習コーパスに入ると、データのリークを受けることになる。
その結果、ベンチマークのパフォーマンスは、クレームの実際の検証能力を確実に反映していない。
We introduced Verified Theses and Statements (VeriTaS), a first dynamic benchmark for multimodal AFC, designed to maintain robust under ongoing large-scale pretraining of foundation model。
VeriTaSは現在、54言語にわたる108のプロのファクトチェック組織による24,000件の現実世界のクレームで構成されており、テキストとオーディオヴィジュアルコンテンツを含んでいる。
クレームは、クレームの定式化を正規化し、元のメディアを検索し、異質な専門家の評定を、テキストの正当性を備えた、新しい、標準化され、アンタングルされていないスコアリングスキームにマッピングする、完全に自動化された7段階のパイプラインによって、四半期毎に追加される。
人的評価を通じて,自動アノテーションが人間の判断と密接に一致していることを示す。
我々は今後VeriTaSを更新し、リーク耐性ベンチマークを確立し、急速に発展する基盤モデルの時代において有意義なAFC評価をサポートすることを約束する。
コードとデータを公開します。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts [35.952854524873246]
Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME)は、オープンドメイン、テキストイメージクレーム検証のためのゼロショットMLLMパイプラインである。
DEFAMEは6段階のプロセスで動作し、ツールと検索深度を動的に選択し、テキストおよび視覚的証拠を抽出し、評価する。
論文 参考訳(メタデータ) (2024-12-13T19:11:18Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。