論文の概要: Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering
- arxiv url: http://arxiv.org/abs/2604.09812v2
- Date: Tue, 14 Apr 2026 18:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.363463
- Title: Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering
- Title(参考訳): Claim2Vec:多言語類似性とクラスタリングのためのFact-Checkの埋め込み
- Authors: Rrubaa Panchendrarajan, Arkaitz Zubiaga,
- Abstract要約: リカレント・クレームは、誤情報に対処するために設計されたファクトチェック自動化システムにとって大きな課題となる。
本稿では,ファクトチェックのクレームをベクトルとして表現するために最適化された最初の多言語埋め込みモデルであるCrim2Vecを紹介する。
- 参考スコア(独自算出の注目度): 12.015225833229989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent claims present a major challenge for automated fact-checking systems designed to combat misinformation, especially in multilingual settings. While tasks such as claim matching and fact-checked claim retrieval aim to address this problem by linking claim pairs, the broader challenge of effectively representing groups of similar claims that can be resolved with the same fact-check via claim clustering remains relatively underexplored. To address this gap, we introduce Claim2Vec, the first multilingual embedding model optimized to represent fact-check claims as vectors in an improved semantic embedding space. We fine-tune a multilingual encoder using contrastive learning with similar multilingual claim pairs. Experiments on the claim clustering task using three datasets, 14 multilingual embedding models, and 7 clustering algorithms demonstrate that Claim2Vec significantly improves clustering performance. Specifically, it enhances both cluster label alignment and the geometric structure of the embedding space across different cluster configurations. Our multilingual analysis shows that clusters containing multiple languages benefit from fine-tuning, demonstrating cross-lingual knowledge transfer.
- Abstract(参考訳): リカレント・クレームは、特に多言語設定において、誤情報に対処するために設計された自動事実チェックシステムにとって大きな課題となる。
クレームマッチングやファクトチェックされたクレーム検索といったタスクは、クレームペアをリンクすることでこの問題に対処することを目的としているが、クレームクラスタリングを通じて同じファクトチェックで解決できる類似クレームのグループを効果的に表現するというより広範な課題は、比較的過小評価されている。
このギャップに対処するために,ファクトチェックのクレームをベクトルとして表現するために最適化された最初の多言語埋め込みモデルである Claim2Vec を導入する。
類似の多言語クレームペアを用いたコントラスト学習を用いて、多言語エンコーダを微調整する。
3つのデータセット、14の多言語埋め込みモデル、および7つのクラスタリングアルゴリズムを用いたクレームクラスタリングタスクの実験は、Crim2Vecがクラスタリング性能を大幅に改善することを示した。
具体的には、クラスタラベルアライメントと、異なるクラスタ構成にまたがる埋め込み空間の幾何学的構造の両方を強化する。
多言語分析により、複数の言語を含むクラスタは微調整の恩恵を受け、言語間知識の伝達を示す。
関連論文リスト
- Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。
LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。
我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文 参考訳(メタデータ) (2026-01-21T11:32:32Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - MultiMind at SemEval-2025 Task 7: Crosslingual Fact-Checked Claim Retrieval via Multi-Source Alignment [2.470492053534817]
本稿では,SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrievalについて述べる。
本稿では,TriAlignerについて紹介する。TriAlignerは,2つのエンコーダアーキテクチャを対照的な学習で活用し,異なるモダリティにまたがるネイティブとイングリッシュの両方の翻訳を取り入れた新しいアプローチである。
本手法は,複数の言語にまたがるアライメントの相対的重要性を学習することにより,複数の言語にまたがるクレームを効果的に検索する。
論文 参考訳(メタデータ) (2025-12-24T05:14:40Z) - Multilingual vs Crosslingual Retrieval of Fact-Checked Claims: A Tale of Two Approaches [8.127643463046516]
マルチリンガルおよびクロスリンガルのパフォーマンスを改善するための戦略を検討する。
47言語におけるポストとクレームを含むデータセットに対するアプローチを評価する。
最も重要なことは、多言語性は多言語性よりも独自の特徴を持つセットアップであることが示される。
論文 参考訳(メタデータ) (2025-05-28T08:47:10Z) - MultiClaimNet: A Massively Multilingual Dataset of Fact-Checked Claim Clusters [6.444177150506462]
textitMultiClaimNetは3つの多言語クレームクラスタデータセットの集合である。
クレームクラスタは、手動の介入が限定されたクレームマッチングペアから自動的に形成される。
この大きなデータセットには、78言語で書かれた85.3Kのファクトチェッククレームが含まれている。
論文 参考訳(メタデータ) (2025-03-28T09:49:45Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。