Fugu-MT 論文翻訳(概要): LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

論文の概要: LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

arxiv url: http://arxiv.org/abs/2207.04858v1
Date: Mon, 11 Jul 2022 13:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 15:41:02.861677
Title: LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
Title（参考訳）: lat: ビデオテキスト検索のためのサイクルコンシスタンス付き潜在翻訳
Authors: Jinbin Bai, Chunhui Liu, Feiyue Ni, Haofan Wang, Mengying Hu, Xiaofeng Guo, Lele Cheng
Abstract要約: ビデオテキスト検索は、モーダル表現学習問題のクラスである。本稿では、ソースモダリティ空間 $mathcalS$ からターゲットモダリティ空間 $mathcalT$ への変換関係を、ジョイント潜在空間を必要とせずに学習する新しいメカニズムを提案する。
参考スコア（独自算出の注目度）: 3.6570455823407957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-text retrieval is a class of cross-modal representation learning problems, where the goal is to select the video which corresponds to the text query between a given text query and a pool of candidate videos. The contrastive paradigm of vision-language pretraining has shown promising success with large-scale datasets and unified transformer architecture, and demonstrated the power of a joint latent space. Despite this, the intrinsic divergence between the visual domain and textual domain is still far from being eliminated, and projecting different modalities into a joint latent space might result in the distorting of the information inside the single modality. To overcome the above issue, we present a novel mechanism for learning the translation relationship from a source modality space $\mathcal{S}$ to a target modality space $\mathcal{T}$ without the need for a joint latent space, which bridges the gap between visual and textual domains. Furthermore, to keep cycle consistency between translations, we adopt a cycle loss involving both forward translations from $\mathcal{S}$ to the predicted target space $\mathcal{T'}$, and backward translations from $\mathcal{T'}$ back to $\mathcal{S}$. Extensive experiments conducted on MSR-VTT, MSVD, and DiDeMo datasets demonstrate the superiority and effectiveness of our LaT approach compared with vanilla state-of-the-art methods.
Abstract（参考訳）: ビデオテキスト検索は、与えられたテキストクエリと候補ビデオプール間のテキストクエリに対応するビデオを選択することを目的とした、クロスモーダル表現学習問題のクラスである。視覚言語事前学習の対照的なパラダイムは、大規模データセットと統一トランスフォーマーアーキテクチャで有望な成功を示し、共同潜在空間のパワーを実証している。それにもかかわらず、視覚領域とテキスト領域の本質的な相違はいまだに排除されておらず、異なるモードをジョイント潜在空間に投影すると、単一のモダリティ内の情報の歪みが生じる可能性がある。上記の問題を克服するために,視覚領域とテキスト領域のギャップを埋める結合潜在空間を必要とせず,ソースモダリティ空間 $\mathcal{s}$ からターゲットモダリティ空間 $\mathcal{t}$ への変換関係を学習するための新しいメカニズムを提案する。さらに、翻訳間のサイクル一貫性を維持するために、$\mathcal{S}$から予測対象空間$\mathcal{T'}$への前方変換と$\mathcal{T'}$から$\mathcal{S}$への後方変換の両方を含むサイクル損失を採用する。 MSR-VTT, MSVD, DiDeMo のデータセットを用いた大規模な実験により,Vanilla State-of-the-art法と比較して,LaT アプローチの優位性と有効性を示した。

関連論文リスト

VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。 MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文参考訳（メタデータ） (2025-05-22T03:50:13Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文参考訳（メタデータ） (2024-05-15T00:17:48Z)
Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文参考訳（メタデータ） (2024-04-09T08:19:10Z)
Conditional Variational Autoencoder for Sign Language Translation with Cross-Modal Alignment [33.96363443363547]
手話翻訳(SLT)は、連続手話動画をテキストに変換することを目的としている。 SLT(CV-SLT)のための条件変分オートエンコーダに基づく新しいフレームワークを提案する。 CV-SLTは、エンコーダとデコーダの出力を正規化するために、2つのKullback-Leiblerの分岐を持つ2つの経路からなる。
論文参考訳（メタデータ） (2023-12-25T08:20:40Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文参考訳（メタデータ） (2022-12-06T17:10:17Z)
Bridging the Data Gap between Training and Inference for Unsupervised Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文参考訳（メタデータ） (2022-03-16T04:50:27Z)
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文参考訳（メタデータ） (2021-03-23T06:42:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。