論文の概要: Matching Tweets With Applicable Fact-Checks Across Languages
- arxiv url: http://arxiv.org/abs/2202.07094v1
- Date: Mon, 14 Feb 2022 23:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:19:00.764550
- Title: Matching Tweets With Applicable Fact-Checks Across Languages
- Title(参考訳): ツイートとFact-Checksの対応言語
- Authors: Ashkan Kazemi, Zehua Li, Ver\'onica P\'erez-Rosas, Scott A. Hale, Rada
Mihalcea
- Abstract要約: ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
- 参考スコア(独自算出の注目度): 27.762055254009017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important challenge for news fact-checking is the effective dissemination
of existing fact-checks. This in turn brings the need for reliable methods to
detect previously fact-checked claims. In this paper, we focus on automatically
finding existing fact-checks for claims made in social media posts (tweets). We
conduct both classification and retrieval experiments, in monolingual (English
only), multilingual (Spanish, Portuguese), and cross-lingual (Hindi-English)
settings using multilingual transformer models such as XLM-RoBERTa and
multilingual embeddings such as LaBSE and SBERT. We present promising results
for "match" classification (93% average accuracy) in four language pairs. We
also find that a BM25 baseline outperforms state-of-the-art multilingual
embedding models for the retrieval task during our monolingual experiments. We
highlight and discuss NLP challenges while addressing this problem in different
languages, and we introduce a novel curated dataset of fact-checks and
corresponding tweets for future research.
- Abstract(参考訳): ニュースファクトチェックの重要な課題は、既存のファクトチェックの効果的な普及である。
これにより、事実チェック済みのクレームを検出するための信頼性の高いメソッドが必要になる。
本稿では,ソーシャルメディア投稿(つぶやき)のクレームに対する既存の事実チェックを自動的に見つけることに焦点を当てる。
xlm-roberta などの多言語トランスフォーマーモデルと labse や sbert などの多言語組込みモデルを用いて,単言語(英語のみ),多言語(スペイン語,ポルトガル語),多言語(ヒンディー英語)の2つの実験を行った。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
また,bm25のベースラインは,単言語実験における検索タスクにおいて,最先端の多言語埋め込みモデルよりも優れていることがわかった。
我々は,様々な言語でこの問題に対処しつつ,nlpの課題を強調・議論し,今後の研究のために,ファクトチェックと対応ツイートの新しいキュレートデータセットを紹介する。
関連論文リスト
- Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking [5.880794128275313]
言語横断的な物語検索は未検討の問題である。
本研究は, 言語間分離された物語検索を導入し, (i)多言語誤報ツイート(MMTweets)を作成することにより, この研究ギャップに対処する。
MMTweetsは、言語間のペア、画像、人間のアノテーション、きめ細かいラベルを特徴としている。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
論文 参考訳(メタデータ) (2023-08-10T16:33:17Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims [6.167830237917659]
本稿では,意図しないバイアスを軽減するための補助課題として,言語識別タスクを提案する。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2021-09-19T21:46:16Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - LAReQA: Language-agnostic answer retrieval from a multilingual pool [29.553907688813347]
LAReQAによる言語間アライメントの「強い」テスト。
機械翻訳による学習データの増強は効果的であることがわかった。
この発見は、言語に依存しない検索は、言語間評価の実質的な新しいタイプである、という我々の主張を裏付けるものである。
論文 参考訳(メタデータ) (2020-04-11T20:51:11Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。