論文の概要: Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal
Video Grounding
- arxiv url: http://arxiv.org/abs/2106.10634v1
- Date: Sun, 20 Jun 2021 06:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:33:13.595353
- Title: Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal
Video Grounding
- Title(参考訳): Augmented 2D-TAN:Human-centric Spatio-Temporal Video Groundingのための2段階的アプローチ
- Authors: Chaolei Tan, Zihang Lin, Jian-Fang Hu, Xiang Li, Wei-Shi Zheng
- Abstract要約: 本稿では,言語中心の時空間ビデオグラウンディングの課題に対して,効果的な2段階的アプローチを提案する。
第1段階では、与えられた記述に対応する目標モーメントを時間的にグラウンド化するために、拡張された2Dテンポラル・アジャセント・ネットワーク(Augmented 2D-TAN)を提案する。
第2段階では、事前訓練されたMDETRモデルを用いて、言語クエリを介してフレーム単位のバウンディングボックスを生成し、手作りルールのセットを設計し、グラウンドドモーメント内の各フレームに対してMDETRが出力する最良のマッチングバウンディングボックスを選択する。
- 参考スコア(独自算出の注目度): 68.5307360079214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an effective two-stage approach to tackle the problem of
language-based Human-centric Spatio-Temporal Video Grounding (HC-STVG) task. In
the first stage, we propose an Augmented 2D Temporal Adjacent Network
(Augmented 2D-TAN) to temporally ground the target moment corresponding to the
given description. Primarily, we improve the original 2D-TAN from two aspects:
First, a temporal context-aware Bi-LSTM Aggregation Module is developed to
aggregate clip-level representations, replacing the original max-pooling.
Second, we propose to employ Random Concatenation Augmentation (RCA) mechanism
during the training phase. In the second stage, we use pretrained MDETR model
to generate per-frame bounding boxes via language query, and design a set of
hand-crafted rules to select the best matching bounding box outputted by MDETR
for each frame within the grounded moment.
- Abstract(参考訳): 本稿では,Human-centric Spatio-Temporal Video Grounding (HC-STVG) 課題に対する効果的な2段階的アプローチを提案する。
第1段階では、与えられた記述に対応する目標モーメントを時間的に接地する拡張された2次元時間隣接ネットワーク(augmented 2d-tan)を提案する。
まず、時間的文脈を考慮したBi-LSTMアグリゲーションモジュールを開発し、クリップレベルの表現を集約し、元のマックスプールを置き換える。
第2に,訓練段階でランダム結合強化(rca)機構を採用することを提案する。
第2段階では、事前訓練されたMDETRモデルを用いて、言語クエリを介してフレーム単位のバウンディングボックスを生成し、手作りルールのセットを設計し、グラウンドドモーメント内の各フレームに対してMDETRが出力する最良のマッチングバウンディングボックスを選択する。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation [22.018059988585403]
M$2$Depthは、自律運転における信頼性の高いスケール認識周囲の深さを予測するように設計されている。
まず、空間領域と時間領域のコストボリュームを個別に構成する。
本研究では,空間時空間情報を統合して高音量表示を実現する空間時空間融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-05-03T11:06:37Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language [112.32586622873731]
自然言語による未編集映像から特定の瞬間を検索する問題に対処する。
我々は、時間スケールの異なる2次元マップのセットを用いて、ビデオモーメント間の時間的文脈をモデル化する。
モーメントローカライゼーションのためのシングルショットフレームワークであるMS-2D-TAN(Multi-Scale Temporal Adjacent Network)を提案する。
論文 参考訳(メタデータ) (2020-12-04T15:09:35Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。