Fugu-MT 論文翻訳(概要): Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning

論文の概要: Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning

arxiv url: http://arxiv.org/abs/2505.13628v1
Date: Mon, 19 May 2025 18:06:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.475025
Title: Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning
Title（参考訳）: コントラスト的イメージキャプションチューニングによる言語間表現アライメント
Authors: Nathaniel Krasner, Nicholas Lanuzo, Antonios Anastasopoulos,
Abstract要約: 多言語画像キャプチャアライメントは、言語間のテキスト表現を暗黙的にアライメントすることができる。これらの整列表現は、言語間自然言語理解(NLU)とbitext検索に利用できる。
参考スコア（独自算出の注目度）: 22.548938145271197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual alignment of sentence representations has mostly required bitexts to bridge the gap between languages. We investigate whether visual information can bridge this gap instead. Image caption datasets are very easy to create without requiring multilingual expertise, so this offers a more efficient alternative for low-resource languages. We find that multilingual image-caption alignment can implicitly align the text representations between languages, languages unseen by the encoder in pretraining can be incorporated into this alignment post-hoc, and these aligned representations are usable for cross-lingual Natural Language Understanding (NLU) and bitext retrieval.
Abstract（参考訳）: 文表現の多言語的アライメントは、言語間のギャップを埋めるためにほとんどビットプレックスを必要としている。視覚情報がこのギャップを埋めるかどうかを検討する。イメージキャプションデータセットは、多言語的な専門知識を必要とせずに、非常に簡単に作成できるため、低リソース言語に対するより効率的な代替手段を提供する。このアライメントには,言語間のテキスト表現を暗黙的にアライメントすることができること,事前学習でエンコーダに見つからない言語を組み込むこと,これらのアライメント表現を言語間自然言語理解(NLU)やbitext検索に利用できること,などが分かる。

関連論文リスト

Language-Image Alignment with Fixed Text Encoders [28.898689028197005]
現在、言語と画像のアライメントを確立するための最も支配的なアプローチは、テキストと画像エンコーダを共同で事前訓練することである。本研究では,事前学習した固定大言語モデル(LLM)が,視覚表現学習の指導に十分なテキストエンコーダを提供するかどうかを検討する。
論文参考訳（メタデータ） (2025-06-04T17:51:56Z)
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文参考訳（メタデータ） (2025-02-20T18:45:43Z)
Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳（メタデータ） (2024-06-04T17:56:28Z)
Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文参考訳（メタデータ） (2023-06-29T08:20:57Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
Examining Cross-lingual Contextual Embeddings with Orthogonal Structural Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。 InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文参考訳（メタデータ） (2021-09-10T15:03:11Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)
On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文参考訳（メタデータ） (2020-04-09T19:50:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。