論文の概要: Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video
Grounding
- arxiv url: http://arxiv.org/abs/2008.06941v2
- Date: Sat, 22 Aug 2020 11:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:58:10.858988
- Title: Object-Aware Multi-Branch Relation Networks for Spatio-Temporal Video
Grounding
- Title(参考訳): 時空間ビデオグラウンドのためのオブジェクト対応マルチブランチ関係ネットワーク
- Authors: Zhu Zhang, Zhou Zhao, Zhijie Lin, Baoxing Huai and Nicholas Jing Yuan
- Abstract要約: 本稿では,オブジェクト認識関係探索のための新しいオブジェクト認識型マルチブランチ関係ネットワークを提案する。
次に,主枝と補助枝の間の重要な対象関係を捉えるためのマルチブランチ推論を提案する。
- 参考スコア(独自算出の注目度): 90.12181414070496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal video grounding aims to retrieve the spatio-temporal tube of
a queried object according to the given sentence. Currently, most existing
grounding methods are restricted to well-aligned segment-sentence pairs. In
this paper, we explore spatio-temporal video grounding on unaligned data and
multi-form sentences. This challenging task requires to capture critical object
relations to identify the queried target. However, existing approaches cannot
distinguish notable objects and remain in ineffective relation modeling between
unnecessary objects. Thus, we propose a novel object-aware multi-branch
relation network for object-aware relation discovery. Concretely, we first
devise multiple branches to develop object-aware region modeling, where each
branch focuses on a crucial object mentioned in the sentence. We then propose
multi-branch relation reasoning to capture critical object relationships
between the main branch and auxiliary branches. Moreover, we apply a diversity
loss to make each branch only pay attention to its corresponding object and
boost multi-branch learning. The extensive experiments show the effectiveness
of our proposed method.
- Abstract(参考訳): 時空間的ビデオグラウンドティングは,所定の文に従って検索対象の時空間的チューブを検索することを目的としている。
現在、既存の接地法のほとんどは、整列されたセグメント-文対に制限されている。
本稿では,不整合データと複数形式の文に基づく時空間ビデオグラウンドについて検討する。
この困難なタスクは、クエリ対象を特定するために重要なオブジェクト関係をキャプチャする必要がある。
しかし、既存のアプローチでは顕著な対象を区別することはできず、不要な対象間の非効率な関係モデリングに留まる。
そこで本稿では,オブジェクト認識関連発見のための新しいマルチブランチ関係ネットワークを提案する。
具体的には、まず複数のブランチを考案し、各ブランチが文中の重要なオブジェクトにフォーカスするオブジェクト認識領域モデリングを開発する。
次に,本分枝と補助分枝の臨界対象関係を捉えるマルチブランチ関係推論を提案する。
さらに,各ブランチが対応する対象にのみ注意を払い,マルチブランチ学習を促進するために多様性損失を適用した。
提案手法の有効性を実験的に検証した。
関連論文リスト
- Mutually-Aware Feature Learning for Few-Shot Object Counting [20.623402944601775]
追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T06:46:24Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Multi-object Tracking with a Hierarchical Single-branch Network [31.680667324595557]
階層的な単一ブランチネットワークに基づくオンライン多目的追跡フレームワークを提案する。
新たなiHOIM損失関数は,2つのサブタスクの目的を統一し,より優れた検出性能を実現する。
MOT16とMOT20データセットの実験結果から,最先端のトラッキング性能が達成できた。
論文 参考訳(メタデータ) (2021-01-06T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。