論文の概要: X-PARADE: Cross-Lingual Textual Entailment and Information Divergence
across Paragraphs
- arxiv url: http://arxiv.org/abs/2309.08873v1
- Date: Sat, 16 Sep 2023 04:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:52:52.044002
- Title: X-PARADE: Cross-Lingual Textual Entailment and Information Divergence
across Paragraphs
- Title(参考訳): X-PARADE: パラグラフ間の言語間テキストの包含と情報の多様性
- Authors: Juan Diego Rodriguez, Katrin Erk, Greg Durrett
- Abstract要約: X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
- 参考スコア(独自算出の注目度): 62.71573787079949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding when two pieces of text convey the same information is a goal
touching many subproblems in NLP, including textual entailment and
fact-checking. This problem becomes more complex when those two pieces of text
are in different languages. Here, we introduce X-PARADE (Cross-lingual
Paragraph-level Analysis of Divergences and Entailments), the first
cross-lingual dataset of paragraph-level information divergences. Annotators
label a paragraph in a target language at the span level and evaluate it with
respect to a corresponding paragraph in a source language, indicating whether a
given piece of information is the same, new, or new but can be inferred. This
last notion establishes a link with cross-language NLI. Aligned paragraphs are
sourced from Wikipedia pages in different languages, reflecting real
information divergences observed in the wild. Armed with our dataset, we
investigate a diverse set of approaches for this problem, including classic
token alignment from machine translation, textual entailment methods that
localize their decisions, and prompting of large language models. Our results
show that these methods vary in their capability to handle inferable
information, but they all fall short of human performance.
- Abstract(参考訳): 2つのテキストが同じ情報を伝達する際の理解は、テキストのエンテーメントやファクトチェックを含む、NLPの多くのサブプロブレムに触れるゴールである。
この2つのテキストが異なる言語である場合、この問題はより複雑になる。
本稿では,第1の言語横断データセットであるx-parade (cross-lingual paragraph-level analysis of divergences and entailments) を紹介する。
アノテーションは、目的言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落について評価し、所定の情報が同じ、新しい、あるいは新しいものであるかを示すが、推測することができる。
この最後の概念は、言語間NLIとのリンクを確立する。
整列した段落は、異なる言語のwikipediaページから出され、野生で観察される実際の情報の多様性を反映している。
当社のデータセットを用いて,機械翻訳からの古典的なトークンアライメント,決定を局所化するテキストによる補足手法,大規模言語モデルの推進など,この問題に対するさまざまなアプローチを調査した。
以上の結果から,これらの手法は推定不可能な情報を扱う能力に異なるが,いずれも人的性能に欠けることがわかった。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - Interactive-Chain-Prompting: Ambiguity Resolution for Crosslingual
Conditional Generation with Interaction [38.73550742775257]
ある言語のソースクエリは、追加のコンテキストなしで、別の言語でいくつかの翻訳オプションを生成することができる。
あいまいさに対処するサブプロブレムのリストに変換を還元する対話型チェーンプロンプトを提案する。
異なる言語現象を示すデータセットを作成し、4つの言語の推論におけるあいまいさを導く。
論文 参考訳(メタデータ) (2023-01-24T21:08:13Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。