論文の概要: Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora
- arxiv url: http://arxiv.org/abs/2105.04971v1
- Date: Tue, 11 May 2021 12:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:52:44.664292
- Title: Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora
- Title(参考訳): backretrieval:並列コーパスのない言語間テキスト表現のための画像分割評価指標
- Authors: Mikhail Fain, Niall Twomey and Danushka Bollegala
- Abstract要約: Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
- 参考スコア(独自算出の注目度): 19.02834713111249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual text representations have gained popularity lately and act as
the backbone of many tasks such as unsupervised machine translation and
cross-lingual information retrieval, to name a few. However, evaluation of such
representations is difficult in the domains beyond standard benchmarks due to
the necessity of obtaining domain-specific parallel language data across
different pairs of languages. In this paper, we propose an automatic metric for
evaluating the quality of cross-lingual textual representations using images as
a proxy in a paired image-text evaluation dataset. Experimentally,
Backretrieval is shown to highly correlate with ground truth metrics on
annotated datasets, and our analysis shows statistically significant
improvements over baselines. Our experiments conclude with a case study on a
recipe dataset without parallel cross-lingual data. We illustrate how to judge
cross-lingual embedding quality with Backretrieval, and validate the outcome
with a small human study.
- Abstract(参考訳): 近年、言語間テキスト表現が普及し、教師なし機械翻訳や言語間情報検索など多くのタスクのバックボーンとして機能している。
しかし、そのような表現の評価は、異なる言語対にわたるドメイン固有の並列言語データを取得する必要があるため、標準ベンチマークを超える領域では困難である。
本稿では,ペア画像テキスト評価データセットのプロキシとして画像を用いた言語間テキスト表現の質を評価するための自動メトリクスを提案する。
実験的に、backretrieval は注釈付きデータセットの基底的真理指標と高い相関性を示し、ベースラインに対する統計的に有意な改善を示す。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
本稿では,言語間埋め込み品質をバックリトライヴァルで判断する方法を説明し,その結果を人間の小さな研究で検証する。
関連論文リスト
- Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Cross-Lingual Phrase Retrieval [49.919180978902915]
言語横断検索は、言語間で関連するテキストを検索することを目的としている。
現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。
本稿では,ラベルなし例文から句表現を抽出する言語横断句検索システムXPRを提案する。
論文 参考訳(メタデータ) (2022-04-19T13:35:50Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Does Summary Evaluation Survive Translation to Other Languages? [0.0]
既存の英語要約データセット SummEval を4言語に翻訳する。
本研究は,翻訳言語における自動評価指標のスコアと,ソース言語における人間のアノテーションとの相関から分析する。
論文 参考訳(メタデータ) (2021-09-16T17:35:01Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - MultiSubs: A Large-scale Multimodal and Multilingual Dataset [32.48454703822847]
本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
論文 参考訳(メタデータ) (2021-03-02T18:09:07Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。