論文の概要: Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2203.02966v1
- Date: Sun, 6 Mar 2022 13:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:34:38.904643
- Title: Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding
- Title(参考訳): 時間文接地のための光流動誘導運動と検出ベース外観の探索
- Authors: Daizong Liu, Xiang Fang, Wei Hu, Pan Zhou
- Abstract要約: テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
- 参考スコア(独自算出の注目度): 61.57847727651068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding aims to localize a target segment in an untrimmed
video semantically according to a given sentence query. Most previous works
focus on learning frame-level features of each whole frame in the entire video,
and directly match them with the textual information. Such frame-level feature
extraction leads to the obstacles of these methods in distinguishing ambiguous
video frames with complicated contents and subtle appearance differences, thus
limiting their performance. In order to differentiate fine-grained appearance
similarities among consecutive frames, some state-of-the-art methods
additionally employ a detection model like Faster R-CNN to obtain detailed
object-level features in each frame for filtering out the redundant background
contents. However, these methods suffer from missing motion analysis since the
object detection module in Faster R-CNN lacks temporal modeling. To alleviate
the above limitations, in this paper, we propose a novel Motion- and
Appearance-guided 3D Semantic Reasoning Network (MA3SRN), which incorporates
optical-flow-guided motion-aware, detection-based appearance-aware, and
3D-aware object-level features to better reason the spatial-temporal object
relations for accurately modelling the activity among consecutive frames.
Specifically, we first develop three individual branches for motion,
appearance, and 3D encoding separately to learn fine-grained motion-guided,
appearance-guided, and 3D-aware object features, respectively. Then, both
motion and appearance information from corresponding branches are associated to
enhance the 3D-aware features for the final precise grounding. Extensive
experiments on three challenging datasets (ActivityNet Caption, Charades-STA
and TACoS) demonstrate that the proposed MA3SRN model achieves a new
state-of-the-art.
- Abstract(参考訳): 時間文の接地は、与えられた文クエリに従って、未トリミングビデオ内の目標セグメントを意味的にローカライズすることを目的としている。
これまでの作品の多くは、ビデオ全体における各フレームのフレームレベルの特徴を学習し、それらをテキスト情報と直接マッチさせる。
このようなフレームレベルの特徴抽出は、複雑な内容と微妙な外観の違いを持つあいまいなビデオフレームを区別する上で、これらの手法の障害となる。
連続するフレーム間の微細な外観類似性を区別するために、いくつかの最先端手法は、冗長な背景内容をフィルタリングするために各フレームに詳細なオブジェクトレベルの特徴を求めるために、Faster R-CNNのような検出モデルを使用する。
しかし、これらの手法は、Faster R-CNNのオブジェクト検出モジュールが時間的モデリングを欠いているため、動作分析に苦しむ。
本稿では,この制約を緩和するために,光フロー制御モーションアウェア,検出ベースアウェア,および3dアウェアオブジェクトレベルの特徴を組み込んだ,連続フレーム間の活動を正確にモデル化するための空間時空間オブジェクト関係の推論を行う新しい3d意味推論ネットワーク(ma3srn)を提案する。
具体的には,まず,動き,外観,および3dエンコーディングのための3つの枝を別々に開発し,細粒度な動き誘導,出現誘導,および3d認識対象の特徴を学習した。
そして、対応する枝からの動作情報と外観情報を関連付けて、最終的な精密接地のための3D認識特徴を強化する。
3つの挑戦的データセット(ActivityNet Caption、Charades-STA、TACoS)に関する大規模な実験は、提案されたMA3SRNモデルが新たな最先端を実現することを実証している。
関連論文リスト
- Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。