論文の概要: Embedded Heterogeneous Attention Transformer for Cross-lingual Image
Captioning
- arxiv url: http://arxiv.org/abs/2307.09915v1
- Date: Wed, 19 Jul 2023 11:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:19:05.066848
- Title: Embedded Heterogeneous Attention Transformer for Cross-lingual Image
Captioning
- Title(参考訳): クロスリンガル画像キャプションのための組込み不均質注意トランス
- Authors: Zijie Song, Zhenzhen Hu, and Richang Hong
- Abstract要約: 言語横断画像キャプションは、マルチメディア分析における言語横断とモーダル横断の両方の課題に直面している。
The proposed EHAT consist of a Masked Heterogeneous Cross-attention (MHCA), Heterogeneous Attention Reasoning Network (HARN) and Heterogeneous Co-attention (HCA)。
- 参考スコア(独自算出の注目度): 32.68150923581474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual image captioning is confronted with both cross-lingual and
cross-modal challenges for multimedia analysis. The crucial issue in this task
is to model the global and local matching between the image and different
languages. Existing cross-modal embedding methods based on Transformer
architecture oversight the local matching between the image region and
monolingual words, not to mention in the face of a variety of differentiated
languages. Due to the heterogeneous property of the cross-modal and
cross-lingual task, we utilize the heterogeneous network to establish
cross-domain relationships and the local correspondences between the image and
different languages. In this paper, we propose an Embedded Heterogeneous
Attention Transformer (EHAT) to build reasoning paths bridging cross-domain for
cross-lingual image captioning and integrate into transformer. The proposed
EHAT consists of a Masked Heterogeneous Cross-attention (MHCA), Heterogeneous
Attention Reasoning Network (HARN) and Heterogeneous Co-attention (HCA). HARN
as the core network, models and infers cross-domain relationship anchored by
vision bounding box representation features to connect two languages word
features and learn the heterogeneous maps. MHCA and HCA implement cross-domain
integration in the encoder through the special heterogeneous attention and
enable single model to generate two language captioning. We test on MSCOCO
dataset to generate English and Chinese, which are most widely used and have
obvious difference between their language families. Our experiments show that
our method even achieve better than advanced monolingual methods.
- Abstract(参考訳): 言語横断画像キャプションは、マルチメディア分析における言語横断とモーダル横断の両方の課題に直面している。
このタスクの重要な問題は、画像と異なる言語間のグローバルおよびローカルマッチングをモデル化することである。
トランスフォーマーアーキテクチャに基づく既存のクロスモーダル埋め込み手法は、画像領域と単言語単語の局所マッチングを監督する。
クロスモーダルタスクとクロスランガルタスクの異種性のため、異種ネットワークを用いて、画像と異なる言語間のドメイン間関係と局所的対応を確立する。
本稿では,言語間画像キャプションのためのクロスドメインをブリッジする推論パスを構築し,トランスフォーマに統合する組込み異種注意変換器(EHAT)を提案する。
提案するehatは,マスク付き異種交叉 (mhca), 異種注意推論ネットワーク (harn) およびヘテロジニアスコアテンション (hca) から構成される。
harnはコアネットワークであり、モデルであり、視覚境界ボックス表現機能によって固定されたクロスドメイン関係を推論し、2つの言語を接続し、異種マップを学ぶ。
MHCAとHCAは、特別なヘテロジニアスな注意を通してエンコーダのクロスドメイン統合を実装し、単一のモデルで2つの言語キャプションを生成する。
MSCOCOデータセットを用いて英語と中国語を生成する。
実験の結果,本手法は先進的な単言語法よりも優れていることがわかった。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual
Cross-modal Structure-pivoted Alignment [81.00183950655924]
言語横断画像キャプションの欠如は、長い間、不適切な問題と相反する問題に悩まされてきた。
本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。
我々のキャプタには,意味構造誘導型画像-ピボットキャプションと構文構造誘導型ピボット・トゥ・ターゲット翻訳が含まれている。
論文 参考訳(メタデータ) (2023-05-20T18:30:03Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。