論文の概要: Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual
Cross-modal Structure-pivoted Alignment
- arxiv url: http://arxiv.org/abs/2305.12260v2
- Date: Thu, 25 May 2023 04:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:29:48.416501
- Title: Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual
Cross-modal Structure-pivoted Alignment
- Title(参考訳): cross2stra: クロスリンガルクロスモーダル構造を用いた非ペア型クロスリンガル画像キャプション
- Authors: Shengqiong Wu, Hao Fei, Wei Ji, Tat-Seng Chua
- Abstract要約: 言語横断画像キャプションの欠如は、長い間、不適切な問題と相反する問題に悩まされてきた。
本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。
我々のキャプタには,意味構造誘導型画像-ピボットキャプションと構文構造誘導型ピボット・トゥ・ターゲット翻訳が含まれている。
- 参考スコア(独自算出の注目度): 81.00183950655924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unpaired cross-lingual image captioning has long suffered from irrelevancy
and disfluency issues, due to the inconsistencies of the semantic scene and
syntax attributes during transfer. In this work, we propose to address the
above problems by incorporating the scene graph (SG) structures and the
syntactic constituency (SC) trees. Our captioner contains the semantic
structure-guided image-to-pivot captioning and the syntactic structure-guided
pivot-to-target translation, two of which are joined via pivot language. We
then take the SG and SC structures as pivoting, performing cross-modal semantic
structure alignment and cross-lingual syntactic structure alignment learning.
We further introduce cross-lingual&cross-modal back-translation training to
fully align the captioning and translation stages. Experiments on
English-Chinese transfers show that our model shows great superiority in
improving captioning relevancy and fluency.
- Abstract(参考訳): unpaired cross-lingual image キャプションは、意味的シーンの不一致と、転送中の構文属性のため、長い間無関係で不流動な問題に苦しんできた。
本研究では,シーングラフ (SG) 構造と構文構成 (SC) 木を組み込むことにより,上記の問題に対処することを提案する。
我々のキャプタは、意味構造誘導画像-ピボットキャプションと、構文構造誘導ピボット変換を含み、そのうち2つはピボット言語を介して結合される。
次に、SGとSCの構造をピボットとし、モーダルな意味構造アライメントと言語間構文構造アライメント学習を行う。
さらに,キャプションと翻訳の段階を完全に整えるために,言語横断型・言語横断型バックトランスレーショントレーニングも導入する。
英語と中国語のトランスファー実験では,字幕の関連性やフラッテンシーの向上に優れた効果が示された。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - DiffCloth: Diffusion Based Garment Synthesis and Manipulation via
Structural Cross-modal Semantic Alignment [124.57488600605822]
クロスモーダルな衣料品の合成と操作は、ファッションデザイナーが衣料品を作る方法に大きな恩恵をもたらすだろう。
クロスモーダルな衣服合成と操作のための拡散型パイプラインDiffClothを紹介する。
CM-Fashionベンチマークの実験により、DiffClothはどちらも最先端の衣服合成結果を得ることが示された。
論文 参考訳(メタデータ) (2023-08-22T05:43:33Z) - Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning [36.14667941845198]
言語横断的なイメージキャプションは、言語横断的障害とモーダル横断的障害の両方に対処する必要がある課題である。
画像と異なる言語間のドメイン間関係を確立するために,組込み不均一注意変換器(EHAT)を提案する。
MSCOCOデータセットを用いた英語と中国語のキャプション生成手法の評価を行った。
論文 参考訳(メタデータ) (2023-07-19T11:35:21Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。