論文の概要: Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
- arxiv url: http://arxiv.org/abs/2412.13510v1
- Date: Wed, 18 Dec 2024 05:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:17.045649
- Title: Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
- Title(参考訳): 言語間クロスモーダル検索のためのセマンティックディアンタングリングを用いた動的適応器
- Authors: Rui Cai, Zhiyu Dong, Jianfeng Dong, Xun Wang,
- Abstract要約: 言語間のクロスモーダル検索は、視覚と低リソース言語(ターゲット言語)を人間ラベルのターゲット言語データを用いることなく調整することを目的としている。
入力キャプションの特性に基づいてパラメータを動的に生成するDASD(Dynamic Adapter with Semantics Disentangling)を提案する。
- 参考スコア(独自算出の注目度): 21.982906171156888
- License:
- Abstract: Existing cross-modal retrieval methods typically rely on large-scale vision-language pair data. This makes it challenging to efficiently develop a cross-modal retrieval model for under-resourced languages of interest. Therefore, Cross-lingual Cross-modal Retrieval (CCR), which aims to align vision and the low-resource language (the target language) without using any human-labeled target-language data, has gained increasing attention. As a general parameter-efficient way, a common solution is to utilize adapter modules to transfer the vision-language alignment ability of Vision-Language Pretraining (VLP) models from a source language to a target language. However, these adapters are usually static once learned, making it difficult to adapt to target-language captions with varied expressions. To alleviate it, we propose Dynamic Adapter with Semantics Disentangling (DASD), whose parameters are dynamically generated conditioned on the characteristics of the input captions. Considering that the semantics and expression styles of the input caption largely influence how to encode it, we propose a semantic disentangling module to extract the semantic-related and semantic-agnostic features from the input, ensuring that generated adapters are well-suited to the characteristics of input caption. Extensive experiments on two image-text datasets and one video-text dataset demonstrate the effectiveness of our model for cross-lingual cross-modal retrieval, as well as its good compatibility with various VLP models.
- Abstract(参考訳): 既存のクロスモーダル検索手法は通常、大規模な視覚言語対のデータに依存している。
これにより、低リソース言語を対象としたクロスモーダル検索モデルを効率的に開発することが困難になる。
そのため、人間ラベルのターゲット言語データを用いることなく、視覚と低リソース言語(ターゲット言語)を連携させることを目的とした言語間クロスモーダル検索 (CCR) が注目されている。
一般的なパラメータ効率の手法として、視覚言語事前学習(VLP)モデルの視覚言語アライメント能力をソースコード言語からターゲット言語に転送するために、アダプタモジュールを利用するのが一般的な方法である。
しかしながら、これらのアダプタは通常、一度学習すると静的であるため、様々な表現を持つターゲット言語キャプションへの適応が困難になる。
入力キャプションの特性に基づいてパラメータを動的に生成するDASD(Dynamic Adapter with Semantics Disentangling)を提案する。
入力キャプションのセマンティックスと表現スタイルがエンコード方法に大きく影響していることを考慮し,提案するセマンティック・セマンティック・セマンティックな特徴を抽出するセマンティック・ディエンタング・モジュールを提案し,生成したアダプタが入力キャプションの特性によく適合していることを確認する。
2つの画像テキストデータセットと1つのビデオテキストデータセットに対する大規模な実験は、言語間相互モーダル検索における我々のモデルの有効性と、様々なVLPモデルとの互換性を示す。
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models [38.751158173278796]
この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。
XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。
次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
論文 参考訳(メタデータ) (2024-04-19T02:33:23Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Parameter-efficient Zero-shot Transfer for Cross-Language Dense
Retrieval with Adapters [20.168480824057923]
クロスランゲージ検索モデルを作成するための一般的なアプローチは、モノリンガル事前学習言語モデルを検索モデルに置き換えることである。
単言語データを用いて学習したモデルは、クロスランゲージ情報検索設定に移行する際に、モデル全体を微調整するよりも効果的であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:25:04Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。