論文の概要: Action tube generation by person query matching for spatio-temporal action detection
- arxiv url: http://arxiv.org/abs/2503.12969v1
- Date: Mon, 17 Mar 2025 09:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:28.376260
- Title: Action tube generation by person query matching for spatio-temporal action detection
- Title(参考訳): 時空間行動検出のための人物問合せマッチングによる行動管生成
- Authors: Kazuki Omi, Jion Oshima, Toru Tamaki,
- Abstract要約: 方法は、IoUベースのリンクやクリップ分割のような後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを生成する。
提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。
アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper proposes a method for spatio-temporal action detection (STAD) that directly generates action tubes from the original video without relying on post-processing steps such as IoU-based linking and clip splitting. Our approach applies query-based detection (DETR) to each frame and matches DETR queries to link the same person across frames. We introduce the Query Matching Module (QMM), which uses metric learning to bring queries for the same person closer together across frames compared to queries for different people. Action classes are predicted using the sequence of queries obtained from QMM matching, allowing for variable-length inputs from videos longer than a single clip. Experimental results on JHMDB, UCF101-24, and AVA datasets demonstrate that our method performs well for large position changes of people while offering superior computational efficiency and lower resource requirements.
- Abstract(参考訳): 本稿では、IoUベースのリンクやクリップ分割といった後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを直接生成する時空間行動検出(STAD)手法を提案する。
提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。
問合せモジュール(QMM)を導入し、異なる人の問合せと比較して、同じ人の問合せをフレームに近づける。
アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
JHMDB, UCF101-24, AVAデータセットによる実験結果から, 提案手法は計算効率が優れ, 資源要求が低くなるとともに, 人の大規模な位置変化に有効であることが示された。
関連論文リスト
- A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Query matching for spatio-temporal action detection with query-based object detector [0.0]
本稿では,ビデオの時間的一貫性を維持するために,クエリベースのオブジェクト検出モデルであるDETRを拡張する手法を提案する。
提案手法は,各フレームにDETRを適用し,時間情報を組み込むために特徴シフトを用いる。
この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。
論文 参考訳(メタデータ) (2024-09-27T02:54:24Z) - TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression [25.180317527112372]
時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である
時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
論文 参考訳(メタデータ) (2024-04-03T02:16:30Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。