論文の概要: Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval
- arxiv url: http://arxiv.org/abs/2410.02027v1
- Date: Tue, 8 Oct 2024 15:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:25:11.541339
- Title: Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval
- Title(参考訳): 多言語・多言語検索のための学習における翻訳とネイティブ知覚のギャップの定量化
- Authors: Kyle Buettner, Adriana Kovashka,
- Abstract要約: 我々は、ドイツ原住民の認識から生まれたキャプションのトレーニングと、機械翻訳または人間翻訳されたキャプションと、英語からドイツ語に翻訳されたキャプションの間に、パフォーマンスのギャップを経験的に示す。
平均的なリコール改善(+1.3)を達成する一方で、ギャップは依然として残っており、コミュニティの将来的な作業のオープンな領域を示している。
- 参考スコア(独自算出の注目度): 28.589035749529955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a scarcity of multilingual vision-language models that properly account for the perceptual differences that are reflected in image captions across languages and cultures. In this work, through a multimodal, multilingual retrieval case study, we quantify the existing lack of model flexibility. We empirically show performance gaps between training on captions that come from native German perception and captions that have been either machine-translated or human-translated from English into German. To address these gaps, we further propose and evaluate caption augmentation strategies. While we achieve mean recall improvements (+1.3), gaps still remain, indicating an open area of future work for the community.
- Abstract(参考訳): 言語や文化にまたがるイメージキャプションに反映される知覚的差異を適切に説明できる多言語視覚言語モデルはほとんどない。
本研究では,マルチモーダル・多言語検索ケーススタディを通じて,既存のモデル柔軟性の欠如を定量化する。
我々は、ドイツ原住民の認識から生まれたキャプションのトレーニングと、機械翻訳または人間翻訳されたキャプションと、英語からドイツ語に翻訳されたキャプションの間に、パフォーマンスのギャップを経験的に示す。
これらのギャップに対処するために、我々はさらにキャプション増強戦略を提案し、評価する。
平均的なリコール改善(+1.3)を達成する一方で、ギャップは依然として残っており、コミュニティの将来的な作業のオープンな領域を示している。
関連論文リスト
- Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer [26.014079273740485]
多言語理解の改善へのアプローチは、高リソース言語と低リソース言語の間の大きなパフォーマンスギャップに悩まされることが多い。
本研究は,12言語を対象とした3つの言語間タスクに関する実験である。
音韻表現は、正書法表現と比較して言語間の類似性が高い。
論文 参考訳(メタデータ) (2024-02-22T04:41:52Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - First Align, then Predict: Understanding the Cross-Lingual Ability of
Multilingual BERT [2.2931318723689276]
言語間移動は、ある言語への関心のタスクを微調整し、ある言語を個別に評価することから生じる。
多言語bertは,マルチリンガルエンコーダとタスク固有言語非依存予測器の2つのサブネットワークの積み重ねと見なすことができる。
エンコーダは言語間移動に不可欠であり、微調整中はほとんど変化しないが、タスク予測器は転写にほとんど重要ではなく、微調整時に赤くなる。
論文 参考訳(メタデータ) (2021-01-26T22:12:38Z) - Cross-lingual Visual Pre-training for Multimodal Machine Translation [36.4592103797139]
我々は、言語間および視覚的事前学習法を組み合わせて、言語間表現を学習する。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
論文 参考訳(メタデータ) (2021-01-25T12:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。