論文の概要: VALHALLA: Visual Hallucination for Machine Translation
- arxiv url: http://arxiv.org/abs/2206.00100v1
- Date: Tue, 31 May 2022 20:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:49:45.454864
- Title: VALHALLA: Visual Hallucination for Machine Translation
- Title(参考訳): VALHALLA: 機械翻訳のための視覚幻覚
- Authors: Yi Li, Rameswar Panda, Yoon Kim, Chun-Fu (Richard) Chen, Rogerio
Feris, David Cox, Nuno Vasconcelos
- Abstract要約: VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
- 参考スコア(独自算出の注目度): 64.86515924691899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing better machine translation systems by considering auxiliary inputs
such as images has attracted much attention in recent years. While existing
methods show promising performance over the conventional text-only translation
systems, they typically require paired text and image as input during
inference, which limits their applicability to real-world scenarios. In this
paper, we introduce a visual hallucination framework, called VALHALLA, which
requires only source sentences at inference time and instead uses hallucinated
visual representations for multimodal machine translation. In particular, given
a source sentence an autoregressive hallucination transformer is used to
predict a discrete visual representation from the input text, and the combined
text and hallucinated representations are utilized to obtain the target
translation. We train the hallucination transformer jointly with the
translation transformer using standard backpropagation with cross-entropy
losses while being guided by an additional loss that encourages consistency
between predictions using either ground-truth or hallucinated visual
representations. Extensive experiments on three standard translation datasets
with a diverse set of language pairs demonstrate the effectiveness of our
approach over both text-only baselines and state-of-the-art methods. Project
page: http://www.svcl.ucsd.edu/projects/valhalla.
- Abstract(参考訳): 近年,画像などの補助入力を考慮した機械翻訳システムの設計が注目されている。
既存の手法では従来のテキストのみの翻訳システムよりも有望な性能を示すが、推論中に入力としてペア化されたテキストとイメージが必要である。
本稿では,VALHALLAと呼ばれる視覚幻覚フレームワークを提案する。これは推論時にのみソース文を必要とするもので,その代わりにマルチモーダル機械翻訳に幻覚表現を用いる。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器を使用し、合成テキストと幻覚表現を利用して目標翻訳を得る。
変換トランスと共同で, クロスエントロピー損失を伴う標準バックプロパゲーションを用いて幻覚トランスを訓練し, 地中あるいは幻覚表現を用いた予測の一貫性を促進する追加損失を誘導する。
多様な言語対を持つ3つの標準翻訳データセットに対する大規模な実験は、テキストのみのベースラインと最先端の手法の両方に対するアプローチの有効性を示す。
プロジェクトページ: http://www.svcl.ucsd.edu/projects/valhalla
関連論文リスト
- VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。
視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。
以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-09T08:19:10Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition [10.130342722193204]
本稿では,n-gramを埋め込み,言語間の整合性(TANGER)を付加した拡張トランスアーキテクチャを提案する。
TANGERは、単一のパッチを埋め込んだ1次変換器と、適応的なn-gramの埋め込みを備えた補助変換器で構成されている。
言語間の整合性は、言語識別と文脈コヒーレンススコアの両方を考慮した損失関数によって達成される。
論文 参考訳(メタデータ) (2023-02-28T02:37:30Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Generative Imagination Elevates Machine Translation [37.78397666835735]
視覚的想像力による新しい機械翻訳手法であるImagiTを提案する。
ImagiTはまず、原文から視覚表現を生成することを学習し、その後、原文と「想像表現」の両方を用いてターゲット翻訳を生成する。
実験によると、ImagiTは視覚的想像力の恩恵を受けており、テキストのみのニューラルマシン翻訳ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2020-09-21T07:44:04Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。