論文の概要: Finding Already Debunked Narratives via Multistage Retrieval: Enabling
Cross-Lingual, Cross-Dataset and Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2308.05680v1
- Date: Thu, 10 Aug 2023 16:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 11:49:25.762177
- Title: Finding Already Debunked Narratives via Multistage Retrieval: Enabling
Cross-Lingual, Cross-Dataset and Zero-Shot Learning
- Title(参考訳): 多段階検索による脱文物語の探索: クロスリンガル,クロスデータセット,ゼロショット学習の実現
- Authors: Iknoor Singh, Carolina Scarton, Xingyi Song, Kalina Bontcheva
- Abstract要約: 本稿では,物語の言語横断的検索を可能にする新しいデータセットを作成する。
このタスクのために、細調整およびオフザシェルフの多言語事前訓練トランスフォーマーモデルをベンチマークする実験を提示する。
また、この言語横断的なデバンク検索タスクを洗練と再格付けの段階に分割する新しい多段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.094795148759833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of retrieving already debunked narratives aims to detect stories
that have already been fact-checked. The successful detection of claims that
have already been debunked not only reduces the manual efforts of professional
fact-checkers but can also contribute to slowing the spread of misinformation.
Mainly due to the lack of readily available data, this is an understudied
problem, particularly when considering the cross-lingual task, i.e. the
retrieval of fact-checking articles in a language different from the language
of the online post being checked. This paper fills this gap by (i) creating a
novel dataset to enable research on cross-lingual retrieval of already debunked
narratives, using tweets as queries to a database of fact-checking articles;
(ii) presenting an extensive experiment to benchmark fine-tuned and
off-the-shelf multilingual pre-trained Transformer models for this task; and
(iii) proposing a novel multistage framework that divides this cross-lingual
debunk retrieval task into refinement and re-ranking stages. Results show that
the task of cross-lingual retrieval of already debunked narratives is
challenging and off-the-shelf Transformer models fail to outperform a strong
lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework
is robust, outperforming BM25 in most scenarios and enabling cross-domain and
zero-shot learning, without significantly harming the model's performance.
- Abstract(参考訳): 既に分断された物語を回収する作業は、すでに事実確認済みの物語を検出することを目的としている。
既に発表されている主張の発見の成功は、プロのファクトチェッカーの手作業を減らすだけでなく、誤報の拡散を遅らせることにも寄与する。
主に、簡単に利用可能なデータがないため、特に、言語横断的なタスク、すなわち、チェックされているオンライン投稿の言語とは異なる言語でファクトチェック記事の検索を考える場合、これは未熟な問題である。
この論文はこのギャップを埋める
一 事実確認記事データベースへのつぶやきをクエリとして使用し、既に散逸した物語の言語間検索を可能とする新しいデータセットを作成すること。
二 この作業のための細調整及びオフザシェルフ多言語事前訓練トランスモデルのベンチマークのための広範な実験を提示すること。
(iii)このクロスリンガル・デバンク検索タスクを改良および再ランキング段階に分割する新しい多段階フレームワークの提案。
以上の結果から,すでに分割されている物語の言語横断検索作業は困難であり,既成のトランスフォーマーモデルでは強い語彙ベースライン(BM25)を上回りません。
それでも、当社の多段階検索フレームワークは堅牢であり、ほとんどのシナリオでbm25を上回っており、モデルのパフォーマンスを損なうことなく、クロスドメインおよびゼロショット学習を可能にしています。
関連論文リスト
- Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents [12.493662336994106]
学術領域における4つの異なる言語に対する抽象的言語間要約データセットを提案する。
我々は、英語論文を処理し、ドイツ語、イタリア語、中国語、日本語で要約を生成するモデルを訓練し、評価する。
論文 参考訳(メタデータ) (2022-05-30T12:31:28Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。