Fugu-MT 論文翻訳(概要): Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning

論文の概要: Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2308.05680v1
Date: Thu, 10 Aug 2023 16:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 11:49:25.762177
Title: Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning
Title（参考訳）: 多段階検索による脱文物語の探索: クロスリンガル,クロスデータセット,ゼロショット学習の実現
Authors: Iknoor Singh, Carolina Scarton, Xingyi Song, Kalina Bontcheva
Abstract要約: 本稿では,物語の言語横断的検索を可能にする新しいデータセットを作成する。このタスクのために、細調整およびオフザシェルフの多言語事前訓練トランスフォーマーモデルをベンチマークする実験を提示する。また、この言語横断的なデバンク検索タスクを洗練と再格付けの段階に分割する新しい多段階フレームワークを提案する。
参考スコア（独自算出の注目度）: 6.094795148759833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of retrieving already debunked narratives aims to detect stories that have already been fact-checked. The successful detection of claims that have already been debunked not only reduces the manual efforts of professional fact-checkers but can also contribute to slowing the spread of misinformation. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual task, i.e. the retrieval of fact-checking articles in a language different from the language of the online post being checked. This paper fills this gap by (i) creating a novel dataset to enable research on cross-lingual retrieval of already debunked narratives, using tweets as queries to a database of fact-checking articles; (ii) presenting an extensive experiment to benchmark fine-tuned and off-the-shelf multilingual pre-trained Transformer models for this task; and (iii) proposing a novel multistage framework that divides this cross-lingual debunk retrieval task into refinement and re-ranking stages. Results show that the task of cross-lingual retrieval of already debunked narratives is challenging and off-the-shelf Transformer models fail to outperform a strong lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework is robust, outperforming BM25 in most scenarios and enabling cross-domain and zero-shot learning, without significantly harming the model's performance.
Abstract（参考訳）: 既に分断された物語を回収する作業は、すでに事実確認済みの物語を検出することを目的としている。既に発表されている主張の発見の成功は、プロのファクトチェッカーの手作業を減らすだけでなく、誤報の拡散を遅らせることにも寄与する。主に、簡単に利用可能なデータがないため、特に、言語横断的なタスク、すなわち、チェックされているオンライン投稿の言語とは異なる言語でファクトチェック記事の検索を考える場合、これは未熟な問題である。この論文はこのギャップを埋める一事実確認記事データベースへのつぶやきをクエリとして使用し、既に散逸した物語の言語間検索を可能とする新しいデータセットを作成すること。二この作業のための細調整及びオフザシェルフ多言語事前訓練トランスモデルのベンチマークのための広範な実験を提示すること。 (iii)このクロスリンガル・デバンク検索タスクを改良および再ランキング段階に分割する新しい多段階フレームワークの提案。以上の結果から,すでに分割されている物語の言語横断検索作業は困難であり,既成のトランスフォーマーモデルでは強い語彙ベースライン(BM25)を上回りません。それでも、当社の多段階検索フレームワークは堅牢であり、ほとんどのシナリオでbm25を上回っており、モデルのパフォーマンスを損なうことなく、クロスドメインおよびゼロショット学習を可能にしています。

関連論文リスト

Multilingual vs Crosslingual Retrieval of Fact-Checked Claims: A Tale of Two Approaches [5.850200023135349]
マルチリンガルおよびクロスリンガルのパフォーマンスを改善するための戦略を検討する。 47言語におけるポストとクレームを含むデータセットに対するアプローチを評価する。最も重要なことは、多言語性は多言語性よりも独自の特徴を持つセットアップであることが示される。
論文参考訳（メタデータ） (2025-05-28T08:47:10Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [38.18495961129682]
本稿では,大規模セマンティックコーパスを必要としない新たな言語間探索タスクを提案する。これは、大きな言語モデルによって生成される障害に挑戦するよりも、真の並列文を言語横断的にランク付けするモデルの能力に焦点を当てている。ニュースドメインにおける言語対であるドイツ語とフランス語のCLSDタスクのケーススタディを作成します。
論文参考訳（メタデータ） (2025-02-12T18:54:37Z)
mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文参考訳（メタデータ） (2024-10-02T01:59:07Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文参考訳（メタデータ） (2024-01-19T06:54:39Z)
Cross-lingual Transfer Learning for Check-worthy Claim Identification over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文参考訳（メタデータ） (2022-11-09T18:18:53Z)
CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文参考訳（メタデータ） (2022-09-05T17:36:14Z)
Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。 4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文参考訳（メタデータ） (2022-02-14T23:33:02Z)
One Question Answering Model for Many Languages with Cross-lingual Dense Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文参考訳（メタデータ） (2021-07-26T06:02:54Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。