論文の概要: Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
- arxiv url: http://arxiv.org/abs/2307.09915v2
- Date: Fri, 5 Apr 2024 15:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:49:52.212590
- Title: Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
- Title(参考訳): 言語間画像キャプションのための埋め込み不均一アテンション変換器
- Authors: Zijie Song, Zhenzhen Hu, Yuanen Zhou, Ye Zhao, Richang Hong, Meng Wang,
- Abstract要約: 言語横断的なイメージキャプションは、言語横断的障害とモーダル横断的障害の両方に対処する必要がある課題である。
画像と異なる言語間のドメイン間関係を確立するために,組込み不均一注意変換器(EHAT)を提案する。
MSCOCOデータセットを用いた英語と中国語のキャプション生成手法の評価を行った。
- 参考スコア(独自算出の注目度): 36.14667941845198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual image captioning is a challenging task that requires addressing both cross-lingual and cross-modal obstacles in multimedia analysis. The crucial issue in this task is to model the global and the local matching between the image and different languages. Existing cross-modal embedding methods based on the transformer architecture oversee the local matching between the image region and monolingual words, especially when dealing with diverse languages. To overcome these limitations, we propose an Embedded Heterogeneous Attention Transformer (EHAT) to establish cross-domain relationships and local correspondences between images and different languages by using a heterogeneous network. EHAT comprises Masked Heterogeneous Cross-attention (MHCA), Heterogeneous Attention Reasoning Network (HARN), and Heterogeneous Co-attention (HCA). The HARN serves as the core network and it captures cross-domain relationships by leveraging visual bounding box representation features to connect word features from two languages and to learn heterogeneous maps. MHCA and HCA facilitate cross-domain integration in the encoder through specialized heterogeneous attention mechanisms, enabling a single model to generate captions in two languages. We evaluate our approach on the MSCOCO dataset to generate captions in English and Chinese, two languages that exhibit significant differences in their language families. The experimental results demonstrate the superior performance of our method compared to existing advanced monolingual methods. Our proposed EHAT framework effectively addresses the challenges of cross-lingual image captioning, paving the way for improved multilingual image analysis and understanding.
- Abstract(参考訳): 言語横断画像キャプションは,マルチメディア分析において,言語横断障害とモーダル横断障害の両方に対処する必要がある課題である。
このタスクにおける重要な問題は、画像と異なる言語間のグローバルなマッチングとローカルなマッチングをモデル化することである。
トランスアーキテクチャに基づく既存のクロスモーダル埋め込み手法は、特に多様な言語を扱う場合、画像領域とモノリンガル語との局所的なマッチングを監督する。
これらの制約を克服するために、異種ネットワークを用いて、画像と異なる言語間のドメイン間関係と局所的対応を確立するための組込み異種注意変換器(EHAT)を提案する。
EHATは、Masked Heterogeneous Cross-attention (MHCA)、Heterogeneous Attention Reasoning Network (HARN)、Heterogeneous Co-attention (HCA)を含む。
HARNはコアネットワークとして機能し、視覚的境界ボックス表現機能を利用して、2つの言語から単語の特徴を接続し、異種マップを学習することで、ドメイン間の関係を捉える。
MHCAとHCAは、特殊なヘテロジニアスアテンション機構を通じてエンコーダのクロスドメイン統合を促進し、単一のモデルが2つの言語でキャプションを生成することを可能にする。
MSCOCOデータセットを用いた英語と中国語のキャプション生成手法の評価を行った。
実験の結果,従来のモノリンガル法に比べて優れた性能を示した。
提案するEHATフレームワークは,多言語画像のキャプションの課題を効果的に解決し,多言語画像解析と理解の改善に寄与する。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual
Cross-modal Structure-pivoted Alignment [81.00183950655924]
言語横断画像キャプションの欠如は、長い間、不適切な問題と相反する問題に悩まされてきた。
本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。
我々のキャプタには,意味構造誘導型画像-ピボットキャプションと構文構造誘導型ピボット・トゥ・ターゲット翻訳が含まれている。
論文 参考訳(メタデータ) (2023-05-20T18:30:03Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。