論文の概要: Memory Reviving, Continuing Learning and Beyond: Evaluation of Pre-trained Encoders and Decoders for Multimodal Machine Translation
- arxiv url: http://arxiv.org/abs/2504.18012v1
- Date: Fri, 25 Apr 2025 01:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.609574
- Title: Memory Reviving, Continuing Learning and Beyond: Evaluation of Pre-trained Encoders and Decoders for Multimodal Machine Translation
- Title(参考訳): 記憶の復活と学習の継続:マルチモーダル機械翻訳のための事前学習エンコーダとデコーダの評価
- Authors: Zhuang Yu, Shiliang Sun, Jing Zhao, Tengfei Song, Hao Yang,
- Abstract要約: マルチモーダル機械翻訳は、画像などの補助的なモダリティをテキスト入力と併用することで、翻訳品質を向上させることを目的としている。
大規模事前学習型言語と視覚モデルにおける最近の進歩は、一助の自然言語処理タスクに大きな恩恵をもたらしている。
我々は,マルチモーダル翻訳モデルにおける事前学習エンコーダとデコーダの影響について,系統的研究を行った。
- 参考スコア(独自算出の注目度): 32.52148135803554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Machine Translation (MMT) aims to improve translation quality by leveraging auxiliary modalities such as images alongside textual input. While recent advances in large-scale pre-trained language and vision models have significantly benefited unimodal natural language processing tasks, their effectiveness and role in MMT remain underexplored. In this work, we conduct a systematic study on the impact of pre-trained encoders and decoders in multimodal translation models. Specifically, we analyze how different training strategies, from training from scratch to using pre-trained and partially frozen components, affect translation performance under a unified MMT framework. Experiments are carried out on the Multi30K and CoMMuTE dataset across English-German and English-French translation tasks. Our results reveal that pre-training plays a crucial yet asymmetrical role in multimodal settings: pre-trained decoders consistently yield more fluent and accurate outputs, while pre-trained encoders show varied effects depending on the quality of visual-text alignment. Furthermore, we provide insights into the interplay between modality fusion and pre-trained components, offering guidance for future architecture design in multimodal translation systems.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、画像などの補助的なモダリティをテキスト入力と併用することにより、翻訳品質を向上させることを目的としている。
近年の大規模事前学習型言語と視覚モデルの進歩は、一助の自然言語処理タスクに大きな恩恵をもたらしたが、MMTにおけるその効果と役割は未解明のままである。
本研究では,マルチモーダル翻訳モデルにおける事前学習エンコーダとデコーダの影響について,系統的研究を行った。
具体的には、スクラッチからのトレーニングから、事前学習された部分凍結されたコンポーネントの使用に至るまで、さまざまなトレーニング戦略が、統合MMTフレームワークの下での翻訳性能にどのように影響するかを分析する。
Multi30KとCoMMuTEのデータセットを英語とドイツ語と英語とフランス語の翻訳タスクで実験する。
トレーニング済みデコーダは、視覚的テキストアライメントの品質に応じて様々な効果を示す一方、トレーニング済みデコーダは、常により流動的で正確な出力が得られる。
さらに、モーダリティ融合と事前学習されたコンポーネントの相互作用に関する洞察を提供し、マルチモーダル翻訳システムにおける将来のアーキテクチャ設計のためのガイダンスを提供する。
関連論文リスト
- EMMeTT: Efficient Multimodal Machine Translation Training [26.295981183965566]
自動音声翻訳(AST)を含む音声-LLMのマルチモーダル共同学習方式を提案する。
共同マルチモーダルトレーニングを扱うために,EMMeTTと呼ばれる新しいトレーニングフレームワークを提案する。
結果、多モーダル翻訳モデルでは、強いテキストと音声の翻訳結果を同時に生成する。
論文 参考訳(メタデータ) (2024-09-20T14:03:23Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - MSP: Multi-Stage Prompting for Making Pre-trained Language Models Better
Translators [10.557167523009392]
本稿では,事前学習した言語モデルを翻訳タスクに適応させるための,シンプルで軽量な手法であるMulti-Stage Promptingを提案する。
事前学習された言語モデルをより優れた翻訳者にするために,事前学習された言語モデルを介して翻訳過程を3つの段階に分けた。
各段階において、事前訓練された言語モデルを翻訳タスクに適応させるために、異なる連続的なプロンプトを独立して適用する。
論文 参考訳(メタデータ) (2021-10-13T10:06:21Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。