論文の概要: CommunityFact: A Dynamic, Multilingual, Multi-domain Benchmark for Misinformation Detection in the Wild
- arxiv url: http://arxiv.org/abs/2605.30241v1
- Date: Thu, 28 May 2026 17:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.573061
- Title: CommunityFact: A Dynamic, Multilingual, Multi-domain Benchmark for Misinformation Detection in the Wild
- Title(参考訳): CommunityFact: 野生における誤情報検出のための動的、多言語、マルチドメインベンチマーク
- Authors: Sahajpreet Singh, Insyirah Mujtahid, Min-Yen Kan, Kokil Jaidka,
- Abstract要約: CommunityFactは、誤情報検出のためのリフレッシュ可能なベンチマークである。
このリリースには、5つの言語と2つのドメインにわたる15,992のスタンドアロンクレームが含まれている。
- 参考スコア(独自算出の注目度): 29.218863878839368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misinformation verification increasingly occurs in public, fast-moving, and multilingual online settings, where static benchmarks provide an incomplete measure of model reliability. We introduce CommunityFact, a refreshable benchmark for misinformation detection in the wild, with three major goals: coverage, granularity, and redistributability. This release contains 15,992 standalone claims across five languages and two domains. We evaluate ten LLMs under varying inference-time capabilities, including thinking and web-search. Our results show that closed-input verification remains challenging, web access yields the largest gains, and web-enabled LLMs' source-selection policies are systematically misaligned with the sources human Community Notes raters converge on -- a gap that closes through model-specific mechanisms of retrieval expansion or pruning. We further find substantial variation across language-domain slices and across the evidence ecosystems used by web-enabled systems. Beyond evaluation, CommunityFact positions Community Notes as a training signal for claim-conditioned source suggesters that could improve factual verification on novel claims.
- Abstract(参考訳): 誤情報検証は、静的ベンチマークがモデルの信頼性を不完全な尺度として提供する、公開、高速移動、多言語オンライン設定でますます発生する。
CommunityFactは、野生での誤情報検出のためのリフレッシュ可能なベンチマークで、カバレッジ、粒度、再配布性という3つの大きな目標があります。
このリリースには、5つの言語と2つのドメインにわたる15,992のスタンドアロンクレームが含まれている。
我々は,思考やWeb検索など,様々な推論時間で10個のLLMを評価した。
我々の結果は、クローズドインプット検証は依然として困難であり、Webアクセスが最大の利益をもたらすことを示し、Web可能なLLMのソース選択ポリシーは、人間のコミュニティノートラスタが収束するソースと体系的に不一致している。
さらに、言語領域のスライスや、Web対応システムで使用されているエビデンスエコシステムにまたがって、かなりのバリエーションが見られます。
評価以外にも、CommunityFactはCommunity Notesを、新たなクレームの事実検証を改善するクレーム条件のソース提案者のトレーニングシグナルとして位置づけている。
関連論文リスト
- DSIPA: Detecting LLM-Generated Texts via Sentiment-Invariant Patterns Divergence Analysis [13.9689104714669]
DSIPAは、制御されたスタイル変化の下で感情分布の安定性を定量化することにより、大規模言語モデル(LLM)コンテンツを検出する、トレーニング不要のフレームワークである。
ゼロショットのブラックボックス方式で動作し、2つの教師なしメトリクス、感情分布の一貫性と感情分布の保存を活用する。
本フレームワークは, ドメイン間の高度な一般化性と, 敵条件に対する強いレジリエンスを示す。
論文 参考訳(メタデータ) (2026-04-29T06:22:08Z) - Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Contradiction to Consensus: Dual Perspective, Multi Source Retrieval Based Claim Verification with Source Level Disagreement using LLM [0.17188280334580197]
事実確認と呼ばれるクレーム検証は、潜在的な誤情報を特定するのに役立つ。
ほとんどの自動クレーム検証システムは単一の知識源に依存している。
オープンドメインのクレーム検証のための新しいシステムを提案する。
論文 参考訳(メタデータ) (2026-02-21T02:21:31Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - FedMobile: Enabling Knowledge Contribution-aware Multi-modal Federated Learning with Incomplete Modalities [15.771749047384535]
マルチモーダルFLを用いたモバイルセンシングシステムにおける鍵となる課題は、モダリティの不完全性である。
現在のマルチモーダルFLフレームワークは、通常、複数のユニモーダルFLサブシステムをトレーニングするか、ノード側にテクニックを適用して、欠落したモダリティを近似する。
我々は、モダリティの欠如にもかかわらず頑健な学習のために設計された、新しい知識貢献型マルチモーダルFLフレームワークであるFedMobileを紹介する。
論文 参考訳(メタデータ) (2025-02-20T15:10:43Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - How to Train Your Fact Verifier: Knowledge Transfer with Multimodal Open Models [95.44559524735308]
大規模言語またはマルチモーダルモデルに基づく検証は、偽コンテンツや有害コンテンツの拡散を緩和するためのオンラインポリシングメカニズムをスケールアップするために提案されている。
我々は,知識伝達の初期研究を通じて,継続的な更新を行うことなく基礎モデルの性能向上の限界をテストする。
最近の2つのマルチモーダルなファクトチェックベンチマークであるMochegとFakedditの結果は、知識伝達戦略がファクドディットのパフォーマンスを最先端よりも1.7%向上し、Mochegのパフォーマンスを2.9%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-06-29T08:39:07Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。