論文の概要: Aligning Source Visual and Target Language Domains for Unpaired Video
Captioning
- arxiv url: http://arxiv.org/abs/2211.12148v1
- Date: Tue, 22 Nov 2022 10:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:10:20.603524
- Title: Aligning Source Visual and Target Language Domains for Unpaired Video
Captioning
- Title(参考訳): 未ペアビデオキャプションのためのソースビジュアルおよびターゲット言語ドメインの調整
- Authors: Fenglin Liu, Xian Wu, Chenyu You, Shen Ge, Yuexian Zou, Xu Sun
- Abstract要約: 教師付きビデオキャプションモデルの訓練には、組み合わせたビデオキャプションペアが必要である。
対象言語におけるビデオキャプションペアを結合せずにモデルを訓練することを目的とした未ペアビデオキャプションタスクを導入する。
- 参考スコア(独自算出の注目度): 97.58101383280345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training supervised video captioning model requires coupled video-caption
pairs. However, for many targeted languages, sufficient paired data are not
available. To this end, we introduce the unpaired video captioning task aiming
to train models without coupled video-caption pairs in target language. To
solve the task, a natural choice is to employ a two-step pipeline system: first
utilizing video-to-pivot captioning model to generate captions in pivot
language and then utilizing pivot-to-target translation model to translate the
pivot captions to the target language. However, in such a pipeline system, 1)
visual information cannot reach the translation model, generating visual
irrelevant target captions; 2) the errors in the generated pivot captions will
be propagated to the translation model, resulting in disfluent target captions.
To address these problems, we propose the Unpaired Video Captioning with Visual
Injection system (UVC-VI). UVC-VI first introduces the Visual Injection Module
(VIM), which aligns source visual and target language domains to inject the
source visual information into the target language domain. Meanwhile, VIM
directly connects the encoder of the video-to-pivot model and the decoder of
the pivot-to-target model, allowing end-to-end inference by completely skipping
the generation of pivot captions. To enhance the cross-modality injection of
the VIM, UVC-VI further introduces a pluggable video encoder, i.e., Multimodal
Collaborative Encoder (MCE). The experiments show that UVC-VI outperforms
pipeline systems and exceeds several supervised systems. Furthermore, equipping
existing supervised systems with our MCE can achieve 4% and 7% relative margins
on the CIDEr scores to current state-of-the-art models on the benchmark MSVD
and MSR-VTT datasets, respectively.
- Abstract(参考訳): 教師付きビデオキャプションモデルのトレーニングには、ビデオキャプチャペアの結合が必要だ。
しかし、多くのターゲット言語では、十分なペアデータがない。
そこで本研究では,対象言語でビデオキャプチャペアを結合せずにモデルを訓練することを目的とした,非ペアビデオキャプションタスクを提案する。
この課題を解決するためには、まずビデオからピボットへのキャプションモデルを用いてピボット言語でキャプションを生成し、次にピボットからターゲットへの翻訳モデルを用いてピボットのキャプションをターゲット言語に翻訳する2段階のパイプラインシステムを用いる。
しかし このようなパイプラインシステムでは
1) 視覚情報は翻訳モデルに到達できず,視覚に無関係なキャプションを生成する。
2) 生成したピボットキャプションの誤りは翻訳モデルに伝達され, 結果として, 広範囲なターゲットキャプションとなる。
これらの問題に対処するため,我々はUnpaired Video Captioning with Visual Injection System (UVC-VI)を提案する。
UVC-VIはまずVisual Injection Module (VIM)を導入し、ソースのビジュアルとターゲットの言語ドメインを調整して、ターゲットの言語ドメインにソースのビジュアル情報を注入する。
一方、VIMはピボットモデルのエンコーダとピボットモデルのデコーダを直接接続し、ピボットキャプションの生成を完全にスキップすることで、エンドツーエンドの推論を可能にする。
VIMのクロスモダリティ注入を強化するため、UVC-VIはさらにプラグイン可能なビデオエンコーダ、すなわちMultimodal Collaborative Encoder (MCE)を導入する。
実験の結果, UVC-VIはパイプラインシステムを上回る性能を示し, 教師付きシステムを上回る性能を示した。
さらに,既存の監視システムとMCEを併用することで,CIDErのスコアとMSVDとMSR-VTTのデータセットの現在の最先端モデルとの相対的マージンを4%,7%達成することができる。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action
Recognition with Language Knowledge [35.45809761628721]
大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。
ゼロショット動作認識性能を最良にするために,ビデオデータのチューニングを教師なしで行う手法を提案する。
得られたモデルでは、多くのゼロショットダウンストリームタスクに高い転送性を示す。
論文 参考訳(メタデータ) (2023-03-15T20:17:41Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。