論文の概要: Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2003.13942v1
- Date: Tue, 31 Mar 2020 03:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:06:07.189805
- Title: Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
- Title(参考訳): 知識蒸留によるビデオキャプションのための時空間グラフ
- Authors: Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan
Adeli, Juan Carlos Niebles
- Abstract要約: 空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
- 参考スコア(独自算出の注目度): 50.034189314258356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning is a challenging task that requires a deep understanding of
visual scenes. State-of-the-art methods generate captions using either
scene-level or object-level information but without explicitly modeling object
interactions. Thus, they often fail to make visually grounded predictions, and
are sensitive to spurious correlations. In this paper, we propose a novel
spatio-temporal graph model for video captioning that exploits object
interactions in space and time. Our model builds interpretable links and is
able to provide explicit visual grounding. To avoid unstable performance caused
by the variable number of objects, we further propose an object-aware knowledge
distillation mechanism, in which local object information is used to regularize
global scene features. We demonstrate the efficacy of our approach through
extensive experiments on two benchmarks, showing our approach yields
competitive performance with interpretable predictions.
- Abstract(参考訳): ビデオキャプションは、視覚シーンの深い理解を必要とする難しいタスクである。
State-of-the-artメソッドは、シーンレベルの情報またはオブジェクトレベルの情報を使用してキャプションを生成するが、明示的にオブジェクト間の相互作用をモデル化しない。
したがって、しばしば視覚的な接地予測に失敗し、散発的な相関に敏感である。
本稿では,空間と時間における物体の相互作用を利用したビデオキャプションのための新しい時空間グラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明確な視覚的グラウンドを提供することができる。
オブジェクトの変動数による不安定な性能を回避するため,グローバルなシーンの特徴を正規化するために,局所的なオブジェクト情報を用いるオブジェクト認識型知識蒸留機構を提案する。
2つのベンチマークで広範囲な実験を行い,本手法の有効性を実証し,解釈可能な予測による競合性能を示す。
関連論文リスト
- Context-Aware Temporal Embedding of Objects in Video Data [0.8287206589886881]
ビデオ分析において、時間的コンテキストを理解することは、時間とともにオブジェクトの相互作用、イベントパターン、コンテキストの変化を認識するために不可欠である。
提案モデルは、隣接するビデオフレームからのオブジェクト間の隣接性と意味的類似性を利用して、コンテキスト対応の時間的オブジェクト埋め込みを構築する。
実証実験により、従来の視覚的埋め込みと組み合わせて、文脈対応の時間的埋め込みを利用でき、下流アプリケーションの有効性を高めることができることが示された。
論文 参考訳(メタデータ) (2024-08-23T01:44:10Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。