論文の概要: CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval
- arxiv url: http://arxiv.org/abs/2209.02071v1
- Date: Mon, 5 Sep 2022 17:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:38:24.879819
- Title: CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval
- Title(参考訳): コンクリート:クロスランガル検索によるクロスランガルファクトチェックの改善
- Authors: Kung-Hsiang Huang, ChengXiang Zhai, Heng Ji
- Abstract要約: ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
- 参考スコア(独自算出の注目度): 73.48591773882052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checking has gained increasing attention due to the widespread of
falsified information. Most fact-checking approaches focus on claims made in
English only due to the data scarcity issue in other languages. The lack of
fact-checking datasets in low-resource languages calls for an effective
cross-lingual transfer technique for fact-checking. Additionally, trustworthy
information in different languages can be complementary and helpful in
verifying facts. To this end, we present the first fact-checking framework
augmented with cross-lingual retrieval that aggregates evidence retrieved from
multiple languages through a cross-lingual retriever. Given the absence of
cross-lingual information retrieval datasets with claim-like queries, we train
the retriever with our proposed Cross-lingual Inverse Cloze Task (X-ICT), a
self-supervised algorithm that creates training instances by translating the
title of a passage. The goal for X-ICT is to learn cross-lingual retrieval in
which the model learns to identify the passage corresponding to a given
translated title. On the X-Fact dataset, our approach achieves 2.23% absolute
F1 improvement in the zero-shot cross-lingual setup over prior systems. The
source code and data are publicly available at
https://github.com/khuangaf/CONCRETE.
- Abstract(参考訳): ファクトチェックは偽情報の普及により注目を集めている。
ほとんどのファクトチェックアプローチは、他の言語のデータ不足の問題によってのみ、英語による主張に焦点を当てている。
低リソース言語におけるファクトチェックデータセットの欠如は、ファクトチェックに効果的な言語間転送技術を求めている。
さらに、異なる言語で信頼できる情報が補完され、事実の検証に役立つ。
そこで本研究では,複数言語から検索した証拠を,言語横断検索により集約した最初のファクトチェックフレームワークを提案する。
クレームライクな問合せを伴う言語間情報検索データセットが存在しないことから,提案したクロスランガル逆クローズタスク(X-ICT)を用いて検索者を訓練する。
X-ICTの目標は、モデルが与えられた翻訳タイトルに対応する節を識別することを学ぶ言語間検索を学習することである。
x-factデータセットでは,先行システムに対するゼロショットクロスリンガルセットアップにおいて,絶対f1が2.23%向上した。
ソースコードとデータはhttps://github.com/khuangaf/CONCRETEで公開されている。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies [4.118037156777793]
言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。
大規模言語モデルに対する2つの微調整アプローチとゼロショットおよびフルショット学習アプローチを比較した。
論文 参考訳(メタデータ) (2023-09-12T09:37:08Z) - Breaking Language Barriers with MMTweets: Advancing Cross-Lingual Debunked Narrative Retrieval for Fact-Checking [5.880794128275313]
言語横断的な物語検索は未検討の問題である。
本研究は, 言語間分離された物語検索を導入し, (i)多言語誤報ツイート(MMTweets)を作成することにより, この研究ギャップに対処する。
MMTweetsは、言語間のペア、画像、人間のアノテーション、きめ細かいラベルを特徴としている。
MMTweetsは言語横断的な物語検索の課題を示し,検索モデルの改善領域を強調している。
論文 参考訳(メタデータ) (2023-08-10T16:33:17Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。