論文の概要: Multilingual Previously Fact-Checked Claim Retrieval
- arxiv url: http://arxiv.org/abs/2305.07991v1
- Date: Sat, 13 May 2023 20:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 18:20:45.240624
- Title: Multilingual Previously Fact-Checked Claim Retrieval
- Title(参考訳): 多言語前ファクトチェッククレーム検索
- Authors: Mat\'u\v{s} Pikuliak and Ivan Srba and Robert Moro and Timo Hromadka
and Timotej Smolen and Martin Melisek and Ivan Vykopal and Jakub Simko and
Juraj Podrouzek and Maria Bielikova
- Abstract要約: 本稿では,ファクトチェックされたクレーム検索のための多言語データセットであるMultiClaimを提案する。
ソーシャルメディアから27言語28k、プロのファクトチェッカーが書いた39言語206kのファクトチェックを収集しました。
我々は、このデータセットとその様々な次元において、異なる教師なしの手法がいかに相応しいかを評価した。
- 参考スコア(独自算出の注目度): 0.6094711396431726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checkers are often hampered by the sheer amount of online content that
needs to be fact-checked. NLP can help them by retrieving already existing
fact-checks relevant to the content being investigated. This paper introduces a
new multilingual dataset -- MultiClaim -- for previously fact-checked claim
retrieval. We collected 28k posts in 27 languages from social media, 206k
fact-checks in 39 languages written by professional fact-checkers, as well as
31k connections between these two groups. This is the most extensive and the
most linguistically diverse dataset of this kind to date. We evaluated how
different unsupervised methods fare on this dataset and its various dimensions.
We show that evaluating such a diverse dataset has its complexities and proper
care needs to be taken before interpreting the results. We also evaluated a
supervised fine-tuning approach, improving upon the unsupervised method
significantly.
- Abstract(参考訳): ファクトチェックは、事実チェックが必要な大量のオンラインコンテンツによって、しばしば妨げられる。
NLPは、調査中のコンテンツに関連する既存の事実チェックを取得することで、それらを支援することができる。
本稿では,以前に事実確認されたクレーム検索のための多言語データセットであるMultiClaimを紹介する。
ソーシャルメディアから27の言語で28kの投稿、プロのファクトチェック担当者が書いた39の言語で206kのファクトチェック、そしてこれら2つのグループ間の31kの接続を集めました。
これは、これまででもっとも広範囲で言語的に多様なデータセットである。
教師なしの手法がデータセットとその様々な次元にどう影響するかを評価した。
このような多種多様なデータセットの評価には複雑さがあり,結果の解釈に先立って適切な対応が必要となる。
また,教師なしの微調整手法も評価し,教師なし手法を大幅に改善した。
関連論文リスト
- Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims [6.167830237917659]
本稿では,意図しないバイアスを軽減するための補助課題として,言語識別タスクを提案する。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2021-09-19T21:46:16Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。