論文の概要: Practical Comparable Data Collection for Low-Resource Languages via
Images
- arxiv url: http://arxiv.org/abs/2004.11954v2
- Date: Tue, 28 Apr 2020 19:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 03:44:14.936546
- Title: Practical Comparable Data Collection for Low-Resource Languages via
Images
- Title(参考訳): 画像による低リソース言語のための実用的比較データ収集
- Authors: Aman Madaan, Shruti Rijhwani, Antonios Anastasopoulos, Yiming Yang,
Graham Neubig
- Abstract要約: 本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
- 参考スコア(独自算出の注目度): 126.64069379167975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method of curating high-quality comparable training data for
low-resource languages with monolingual annotators. Our method involves using a
carefully selected set of images as a pivot between the source and target
languages by getting captions for such images in both languages independently.
Human evaluations on the English-Hindi comparable corpora created with our
method show that 81.1% of the pairs are acceptable translations, and only 2.47%
of the pairs are not translations at all. We further establish the potential of
the dataset collected through our approach by experimenting on two downstream
tasks - machine translation and dictionary extraction. All code and data are
available at https://github.com/madaan/PML4DC-Comparable-Data-Collection.
- Abstract(参考訳): 本稿では,単言語アノテータを用いた低リソース言語のための高品質比較学習データのキュレーション手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%は許容翻訳であり、対の2.47%は翻訳ではない。
さらに,このアプローチで収集したデータセットのポテンシャルを,機械翻訳と辞書抽出という2つの下流タスクで検証することで確立する。
すべてのコードとデータはhttps://github.com/madaan/PML4DC-Comparable-Data-Collectionで入手できる。
関連論文リスト
- Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - Low-resource Neural Machine Translation with Cross-modal Alignment [15.416659725808822]
そこで我々は,すべての言語で共有空間を学習するクロスモーダル・コントラスト学習法を提案する。
実験結果とさらなる解析により,少数の画像・テキスト・ペアによる相互・言語間のアライメントを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T04:15:43Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。