論文の概要: Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking
- arxiv url: http://arxiv.org/abs/2308.05680v2
- Date: Tue, 20 Aug 2024 10:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 21:01:16.545792
- Title: Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking
- Title(参考訳): MMつぶやきで言語バリアを壊す - Fact-Checkingのための言語間対話型ナラティブ検索の改善
- Authors: Iknoor Singh, Carolina Scarton, Xingyi Song, Kalina Bontcheva,
- Abstract要約: 言語横断的な物語検索は未検討の問題である。
本研究は, 言語間分離された物語検索を導入し, (i)多言語誤報ツイート(MMTweets)を作成することにより, この研究ギャップに対処する。
MMTweetsは、言語間のペア、画像、人間のアノテーション、きめ細かいラベルを特徴としている。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
- 参考スコア(独自算出の注目度): 5.880794128275313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding previously debunked narratives involves identifying claims that have already undergone fact-checking. The issue intensifies when similar false claims persist in multiple languages, despite the availability of debunks for several months in another language. Hence, automatically finding debunks (or fact-checks) in multiple languages is crucial to make the best use of scarce fact-checkers' resources. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual scenario, i.e. the retrieval of debunks in a language different from the language of the online post being checked. This study introduces cross-lingual debunked narrative retrieval and addresses this research gap by: (i) creating Multilingual Misinformation Tweets (MMTweets): a dataset that stands out, featuring cross-lingual pairs, images, human annotations, and fine-grained labels, making it a comprehensive resource compared to its counterparts; (ii) conducting an extensive experiment to benchmark state-of-the-art cross-lingual retrieval models and introducing multistage retrieval methods tailored for the task; and (iii) comprehensively evaluating retrieval models for their cross-lingual and cross-dataset transfer capabilities within MMTweets, and conducting a retrieval latency analysis. We find that MMTweets presents challenges for cross-lingual debunked narrative retrieval, highlighting areas for improvement in retrieval models. Nonetheless, the study provides valuable insights for creating MMTweets datasets and optimising debunked narrative retrieval models to empower fact-checking endeavours. The dataset and annotation codebook are publicly available at https://doi.org/10.5281/zenodo.10637161.
- Abstract(参考訳): 前述した物語を見つけるには、既に事実確認を受けている主張を特定する必要がある。
この問題は、他の言語で数ヶ月にわたってデバンクが利用可能であったにもかかわらず、類似の偽の主張が複数の言語で持続する時を増す。
したがって、不足するファクトチェックのリソースを最大限活用するためには、複数の言語でデバンク(あるいはファクトチェック)を自動的に見つけることが不可欠である。
特に、言語横断的なシナリオ、すなわち、チェックされているオンライン投稿の言語とは異なる言語におけるデバンクの検索を考えると、これは未調査の問題である。
本研究は、言語横断的な物語検索を導入し、この研究ギャップを次のように解決する。
(i)Multilingual Misinformation Tweets(MMTweets):多言語間ペア、画像、人間のアノテーション、きめ細かいラベルを特徴とするデータセット。
二 最先端の言語間検索モデルをベンチマークし、タスクに適した多段階検索手法を導入するための広範な実験を行うこと。
3)MMつぶやき内における言語間・データセット間転送機能の検索モデルを総合的に評価し,検索遅延解析を行う。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
それにもかかわらず、この研究は、MMTweetsデータセットの作成と、事実チェックの取り組みを促進するために分割された物語検索モデルを最適化するための貴重な洞察を提供する。
データセットとアノテーションのコードブックはhttps://doi.org/10.5281/zenodo.10637161で公開されている。
関連論文リスト
- Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。
これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。
ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。