論文の概要: MultiClaimNet: A Massively Multilingual Dataset of Fact-Checked Claim Clusters
- arxiv url: http://arxiv.org/abs/2503.22280v1
- Date: Fri, 28 Mar 2025 09:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:42.026063
- Title: MultiClaimNet: A Massively Multilingual Dataset of Fact-Checked Claim Clusters
- Title(参考訳): MultiClaimNet: Fact-Checked Claim Clusterの多言語データセット
- Authors: Rrubaa Panchendrarajan, Rubén Míguez, Arkaitz Zubiaga,
- Abstract要約: textitMultiClaimNetは3つの多言語クレームクラスタデータセットの集合である。
クレームクラスタは、手動の介入が限定されたクレームマッチングペアから自動的に形成される。
この大きなデータセットには、78言語で書かれた85.3Kのファクトチェッククレームが含まれている。
- 参考スコア(独自算出の注目度): 6.444177150506462
- License:
- Abstract: In the context of fact-checking, claims are often repeated across various platforms and in different languages, which can benefit from a process that reduces this redundancy. While retrieving previously fact-checked claims has been investigated as a solution, the growing number of unverified claims and expanding size of fact-checked databases calls for alternative, more efficient solutions. A promising solution is to group claims that discuss the same underlying facts into clusters to improve claim retrieval and validation. However, research on claim clustering is hindered by the lack of suitable datasets. To bridge this gap, we introduce \textit{MultiClaimNet}, a collection of three multilingual claim cluster datasets containing claims in 86 languages across diverse topics. Claim clusters are formed automatically from claim-matching pairs with limited manual intervention. We leverage two existing claim-matching datasets to form the smaller datasets within \textit{MultiClaimNet}. To build the larger dataset, we propose and validate an approach involving retrieval of approximate nearest neighbors to form candidate claim pairs and an automated annotation of claim similarity using large language models. This larger dataset contains 85.3K fact-checked claims written in 78 languages. We further conduct extensive experiments using various clustering techniques and sentence embedding models to establish baseline performance. Our datasets and findings provide a strong foundation for scalable claim clustering, contributing to efficient fact-checking pipelines.
- Abstract(参考訳): ファクトチェックの文脈では、クレームは様々なプラットフォームや異なる言語で繰り返されることが多いため、この冗長性を減らすプロセスの恩恵を受けることができる。
以前ファクトチェックされたクレームの検索はソリューションとして検討されてきたが、不確実なクレームの増加とファクトチェックされたデータベースのサイズ拡大により、代替的で効率的なソリューションが求められている。
有望な解決策は、クレームの検索と検証を改善するために、同じ基礎となる事実をクラスタに議論するクレームをグループ化することである。
しかし、クレームクラスタリングの研究は、適切なデータセットの欠如によって妨げられている。
このギャップを埋めるために、さまざまなトピックにまたがる86言語でのクレームを含む3つの多言語クレームクラスタデータセットの集合である \textit{MultiClaimNet} を紹介した。
クレームクラスタは、手動の介入が限定されたクレームマッチングペアから自動的に形成される。
既存の2つのクレームマッチングデータセットを活用して、より小さなデータセットをtextit{MultiClaimNet}内に形成します。
より大規模なデータセットを構築するために,近い近隣住民の探索による候補クレームペアの形成と,大規模言語モデルを用いたクレーム類似性の自動アノテーションの提案と検証を行った。
この大きなデータセットには、78言語で書かれた85.3Kのファクトチェッククレームが含まれている。
さらに,様々なクラスタリング手法と文埋め込みモデルを用いて大規模な実験を行い,ベースライン性能を確立する。
私たちのデータセットと調査結果は、スケーラブルなクレームクラスタリングの強力な基盤を提供し、効率的なファクトチェックパイプラインに寄与します。
関連論文リスト
- Customized Multiple Clustering via Multi-Modal Subspace Proxy Learning [8.447067012487866]
我々は、マルチモーダルなサブスペースプロキシ学習フレームワークを組み込んだ、新しいエンドツーエンドのマルチクラスタリングアプローチであるMulti-Subを紹介する。
我々の手法は、視覚的多重クラスタリングタスクにおいて、幅広いデータセットの集合において、既存のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-06T15:14:27Z) - ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation [0.0]
クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。
本研究では,テキストエンコードされたデータに基づいて事前学習した言語モデルを微調整するフレームワークであるERASMOを紹介する。
論文 参考訳(メタデータ) (2024-10-01T00:37:16Z) - Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文 参考訳(メタデータ) (2024-07-01T15:53:29Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Graph-based Active Learning for Entity Cluster Repair [1.7453520331111723]
クラスタ修復手法は、クラスタ内のエラーを判定し、各クラスタが同一エンティティを表すレコードで構成されるように修正することを目的としている。
現在のクラスタ修復手法では、重複のないデータソースを前提としており、あるソースからのレコードは別のソースからのユニークなレコードに対応する。
近年,クラスタリング手法とリンク分類法を併用して,重複したデータソースに適用する手法が提案されている。
本稿では,クラスタ修復のための新しい手法を提案し,その基盤となる類似性グラフから得られるグラフメトリクスを利用する。
論文 参考訳(メタデータ) (2024-01-26T16:42:49Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。