論文の概要: LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2207.04858v1
- Date: Mon, 11 Jul 2022 13:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:41:02.861677
- Title: LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
- Title(参考訳): lat: ビデオテキスト検索のためのサイクルコンシスタンス付き潜在翻訳
- Authors: Jinbin Bai, Chunhui Liu, Feiyue Ni, Haofan Wang, Mengying Hu, Xiaofeng
Guo, Lele Cheng
- Abstract要約: ビデオテキスト検索は、モーダル表現学習問題のクラスである。
本稿では、ソースモダリティ空間 $mathcalS$ からターゲットモダリティ空間 $mathcalT$ への変換関係を、ジョイント潜在空間を必要とせずに学習する新しいメカニズムを提案する。
- 参考スコア(独自算出の注目度): 3.6570455823407957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-text retrieval is a class of cross-modal representation learning
problems, where the goal is to select the video which corresponds to the text
query between a given text query and a pool of candidate videos. The
contrastive paradigm of vision-language pretraining has shown promising success
with large-scale datasets and unified transformer architecture, and
demonstrated the power of a joint latent space. Despite this, the intrinsic
divergence between the visual domain and textual domain is still far from being
eliminated, and projecting different modalities into a joint latent space might
result in the distorting of the information inside the single modality. To
overcome the above issue, we present a novel mechanism for learning the
translation relationship from a source modality space $\mathcal{S}$ to a target
modality space $\mathcal{T}$ without the need for a joint latent space, which
bridges the gap between visual and textual domains. Furthermore, to keep cycle
consistency between translations, we adopt a cycle loss involving both forward
translations from $\mathcal{S}$ to the predicted target space $\mathcal{T'}$,
and backward translations from $\mathcal{T'}$ back to $\mathcal{S}$. Extensive
experiments conducted on MSR-VTT, MSVD, and DiDeMo datasets demonstrate the
superiority and effectiveness of our LaT approach compared with vanilla
state-of-the-art methods.
- Abstract(参考訳): ビデオテキスト検索は、与えられたテキストクエリと候補ビデオプール間のテキストクエリに対応するビデオを選択することを目的とした、クロスモーダル表現学習問題のクラスである。
視覚言語事前学習の対照的なパラダイムは、大規模データセットと統一トランスフォーマーアーキテクチャで有望な成功を示し、共同潜在空間のパワーを実証している。
それにもかかわらず、視覚領域とテキスト領域の本質的な相違はいまだに排除されておらず、異なるモードをジョイント潜在空間に投影すると、単一のモダリティ内の情報の歪みが生じる可能性がある。
上記の問題を克服するために,視覚領域とテキスト領域のギャップを埋める結合潜在空間を必要とせず,ソースモダリティ空間 $\mathcal{s}$ からターゲットモダリティ空間 $\mathcal{t}$ への変換関係を学習するための新しいメカニズムを提案する。
さらに、翻訳間のサイクル一貫性を維持するために、$\mathcal{S}$から予測対象空間$\mathcal{T'}$への前方変換と$\mathcal{T'}$から$\mathcal{S}$への後方変換の両方を含むサイクル損失を採用する。
MSR-VTT, MSVD, DiDeMo のデータセットを用いた大規模な実験により,Vanilla State-of-the-art法と比較して,LaT アプローチの優位性と有効性を示した。
関連論文リスト
- Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal
Data [10.908771426089512]
クロスモーダルなアプリケーションの構築は、限られたペアのマルチモーダルデータのために難しい。
近年の研究では、事前訓練されたマルチモーダルコントラスト表現空間を利用することで、ユニモーダルデータからクロスモーダルタスクを学習できることが示されている。
C3$ (Connect, Collapse, Corrupt) という3段階の手法を導入し、モダリティギャップを橋渡しし、埋め込みの交換性を高める。
論文 参考訳(メタデータ) (2024-01-16T18:52:27Z) - Conditional Variational Autoencoder for Sign Language Translation with
Cross-Modal Alignment [33.96363443363547]
手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。
SLT(CV-SLT)のための条件変分オートエンコーダに基づく新しいフレームワークを提案する。
CV-SLTは、エンコーダとデコーダの出力を正規化するために、2つのKullback-Leiblerの分岐を持つ2つの経路からなる。
論文 参考訳(メタデータ) (2023-12-25T08:20:40Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Cross-modality Data Augmentation for End-to-End Sign Language
Translation [71.31075396354406]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
XmDAは、クロスモダリティ混合とクロスモダリティ知識蒸留という2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SLTUNET: A Simple Unified Model for Sign Language Translation [40.93099095994472]
複数のサイン・トゥ・グロス、グロス・トゥ・テキストおよびサイン・トゥ・テキスト翻訳タスクをサポートするために設計された単純な統合ニューラルモデルを提案する。
様々なタスクを共同でモデリングすることで、SLTUNETは、モダリティギャップを狭めるのに役立つクロスタスク関連性を探索することができる。
実験では, ENIX-2014T と CSL-Daily において, SLTUNET が競争力, 最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2023-05-02T20:41:59Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。