論文の概要: SEEK: Semantic Evidence Extraction via Adaptive ChunKing for Multilingual Fact-Checking
- arxiv url: http://arxiv.org/abs/2605.26755v2
- Date: Wed, 27 May 2026 18:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.737245
- Title: SEEK: Semantic Evidence Extraction via Adaptive ChunKing for Multilingual Fact-Checking
- Title(参考訳): SEEK:多言語Fact-Checkingのための適応ChunKingによる意味的エビデンス抽出
- Authors: Babu Kumar, Gaurav Kumar, Ayush Garg, Aditya Kishore, Jasabanta Patro,
- Abstract要約: 本稿では,適応的なChunKingフレームワークを用いたセマンティックエビデンス抽出手法であるSEEKを提案する。
セマンティックトピックの遷移を特定し、局所的な検証コンテキストを保存することによって、完全な事実チェック記事からコヒーレントなエビデンスチャンクを構成する。
セマンティックチャンキングで最大10%、文チャンキングで19%、検索スニペットベースラインで20%、マクロf1を改善する。
- 参考スコア(独自算出の注目度): 3.958172554437255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual fact verification requires evidence that is both relevant and sufficiently complete for reliable factuality prediction. However, existing systems often rely on search snippets, sentence-level evidence, or locally segmented passages, which can miss decisive context and produce fragmented evidence. To overcome these limitations, we propose SEEK, a Semantic Evidence Extraction with an adaptive chunKing framework that constructs coherent evidence chunks from full fact-checking articles by identifying semantic topic transitions and preserving local verification context. The constructed chunks are encoded using a multilingual encoder and then multilingual LLMs are finetuned using LoRA adapter for veracity prediction. Experiments on X-FACT and RU22Fact show that SEEK improves macro-f1 by up to 10% over semantic chunking, 19% over sentence chunking, and 20% over search-snippet baselines. Evidence completeness and significance analyses further show that SEEK preserves richer verification context and enables more reliable multilingual fact-checking.
- Abstract(参考訳): 多言語事実検証には、信頼性のある事実性予測に適切かつ十分に完全である証拠が必要である。
しかし、既存のシステムは、しばしば検索スニペット、文レベルのエビデンス、または局所的なセグメンテーションされたパスに依存しており、決定的な文脈を逸脱し、断片化されたエビデンスを生成することができる。
これらの制約を克服するために,セマンティック・エビデンス抽出法であるSEEKを提案する。セマンティック・エビデンス抽出法は,セマンティック・トピック・トランジションの特定と局所的な検証コンテキストの保存により,完全事実チェック記事からコヒーレント・エビデンス・チャンクを構築するアダプティブ・チュンキング・フレームワークである。
構築したチャンクは多言語エンコーダを用いて符号化され、次にLoRAアダプタを用いて多言語LLMを微調整して精度予測を行う。
X-FACTとRU22Factの実験では、SEEKはセマンティックチャンキングよりも最大10%、文チャンキングより19%、検索スニペットベースラインより20%改善している。
さらに、SEEKはよりリッチな検証コンテキストを保持し、より信頼性の高い多言語事実チェックを可能にすることを示す。
関連論文リスト
- Latent Causal Void: Explicit Missing-Context Reconstruction for Misinformation Detection [40.47935998392446]
いくつかの誤報記事は局所的に一貫性が保たれており、記事の背景事実が省略されるという同時報告と比較すると、一度だけ誤解を招くだけである。
本稿では,検索誘導型検出器であるemphLatent Causal Void (LCV)を提案する。
その結果, 欠落したクロスソース事実をモデル化することは, 誤情報検出に有用であることが示唆された。
論文 参考訳(メタデータ) (2026-05-12T14:09:05Z) - From Articles to Premises: Building PrimeFacts, an Extraction Methodology and Resource for Fact-Checking Evidence [27.242475349674155]
PrimeFactsは、完全な事実チェック記事からきめ細かい証拠を抽出する方法論である。
我々は13,106のPoitiFact記事にクレーム、評決、およびすべての参照ソースをまとめる。
私たちのフレームワークは、アンカー文をスタンドアローンでコンテキストに依存しない前提に書き直します。
論文 参考訳(メタデータ) (2026-05-07T10:58:29Z) - All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG [87.74635133954975]
現在のマルチ言語検索・拡張生成システム(mRAG)は,再ランク付け時に言語バイアスに悩まされていることを示す。
textittextbfLanguage-textbfAgnostic textbfUtility-driven textbfReranker textbfAlignment (LAURA)を提案する。
論文 参考訳(メタデータ) (2026-04-22T05:33:06Z) - Multilingual, Multimodal Pipeline for Creating Authentic and Structured Fact-Checked Claim Dataset [3.1256048031872425]
本稿では,フランス語とドイツ語のマルチモーダルなファクトチェックデータセットを構築する包括的データ収集と処理パイプラインを提案する。
我々は, (i) 事前定義された証拠カテゴリに基づく証拠抽出と (ii) 証拠を評定に結びつける正当化生成のために, 最先端の大規模言語モデル (LLM) とマルチモーダル LLM を用いた。
論文 参考訳(メタデータ) (2026-01-12T20:33:46Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - PASS-FC: Progressive and Adaptive Search Scheme for Fact Checking of Comprehensive Claims [2.187145486382368]
PASS-FCは、Fact Checkingのためのプログレッシブで適応的な検索スキームである。
各原子のクレームは、まず正確な時間と曖昧なエンティティ記述子で基礎付けられている。
一般的な知識、科学文献、現実世界の出来事、そして10の言語を含む6つのベンチマークの実験は、PASS-FCが従来のシステムより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-04-14T04:24:37Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。