Fugu-MT 論文翻訳(概要): OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement

論文の概要: OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement

arxiv url: http://arxiv.org/abs/2003.03715v5
Date: Tue, 14 Jul 2020 16:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-25 14:25:05.694786
Title: OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement
Title（参考訳）: OVC-Net: テンポラルグラフと詳細拡張によるオブジェクト指向ビデオキャプション
Authors: Fangyi Zhu, Jenq-Neng Hwang, Zhanyu Ma, Guang Chen, Jun Guo
Abstract要約: 本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
参考スコア（独自算出の注目度）: 44.228748086927375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional video captioning requests a holistic description of the video, yet the detailed descriptions of the specific objects may not be available. Without associating the moving trajectories, these image-based data-driven methods cannot understand the activities from the spatio-temporal transitions in the inter-object visual features. Besides, adopting ambiguous clip-sentence pairs in training, it goes against learning the multi-modal functional mappings owing to the one-to-many nature. In this paper, we propose a novel task to understand the videos in object-level, named object-oriented video captioning. We introduce the video-based object-oriented video captioning network (OVC)-Net via temporal graph and detail enhancement to effectively analyze the activities along time and stably capture the vision-language connections under small-sample condition. The temporal graph provides useful supplement over previous image-based approaches, allowing to reason the activities from the temporal evolution of visual features and the dynamic movement of spatial locations. The detail enhancement helps to capture the discriminative features among different objects, with which the subsequent captioning module can yield more informative and precise descriptions. Thereafter, we construct a new dataset, providing consistent object-sentence pairs, to facilitate effective cross-modal learning. To demonstrate the effectiveness, we conduct experiments on the new dataset and compare it with the state-of-the-art video captioning methods. From the experimental results, the OVC-Net exhibits the ability of precisely describing the concurrent objects, and achieves the state-of-the-art performance.
Abstract（参考訳）: 従来のビデオキャプションでは、ビデオの総合的な説明を要求するが、特定のオブジェクトの詳細な説明は利用できない。移動軌跡を関連づけることなく、これらの画像に基づくデータ駆動手法は、物体間視覚特徴の時空間遷移からの活動を理解することができない。さらに、トレーニングであいまいなクリップ・センテンスペアを採用することで、単対多の性質からマルチモーダル機能マッピングを学ぶことを妨げる。本稿では,オブジェクト指向ビデオキャプションと呼ばれる,映像をオブジェクト指向で理解するための新しいタスクを提案する。ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張により導入し、時間とともに活動を分析し、小さなサンプル条件下での視覚言語接続を安定的に捕捉する。時間グラフは、以前のイメージベースアプローチよりも有用な補足を提供し、視覚特徴の時間的進化と空間的位置の動的移動からアクティビティを推論することができる。細部の拡張は、異なるオブジェクト間の識別的特徴をキャプチャし、それに続くキャプションモジュールによりより情報的で正確な記述が得られる。その後、効果的なクロスモーダル学習を容易にするために、一貫性のあるオブジェクト指向ペアを提供する新しいデータセットを構築した。提案手法の有効性を示すため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較する。実験結果から,OVC-Netは並列オブジェクトを正確に記述する能力を示し,最先端の性能を実現する。

関連論文リスト

From Vision To Language through Graph of Events in Space and Time: An Explainable Self-supervised Approach [9.750622039291507]
自然言語でビデオコンテンツを記述するタスクは、一般にビデオキャプションと呼ばれる。通常のビデオキャプションと異なり、短くて広く公開されているが、自然言語による長文の説明は少ない。
論文参考訳（メタデータ） (2025-07-07T09:33:19Z)
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。 Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文参考訳（メタデータ） (2025-04-07T22:35:36Z)
LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文参考訳（メタデータ） (2024-10-15T19:33:57Z)
Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文参考訳（メタデータ） (2024-07-09T13:58:10Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。 O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。 MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文参考訳（メタデータ） (2021-08-05T04:17:20Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文参考訳（メタデータ） (2020-03-31T03:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。