論文の概要: Query matching for spatio-temporal action detection with query-based object detector
- arxiv url: http://arxiv.org/abs/2409.18408v1
- Date: Fri, 27 Sep 2024 02:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 06:31:22.312876
- Title: Query matching for spatio-temporal action detection with query-based object detector
- Title(参考訳): 問合せ型オブジェクト検出器を用いた時空間行動検出のためのクエリマッチング
- Authors: Shimon Hori, Kazuki Omi, Toru Tamaki,
- Abstract要約: 本稿では,ビデオの時間的一貫性を維持するために,クエリベースのオブジェクト検出モデルであるDETRを拡張する手法を提案する。
提案手法は,各フレームにDETRを適用し,時間情報を組み込むために特徴シフトを用いる。
この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method that extends the query-based object detection model, DETR, to spatio-temporal action detection, which requires maintaining temporal consistency in videos. Our proposed method applies DETR to each frame and uses feature shift to incorporate temporal information. However, DETR's object queries in each frame may correspond to different objects, making a simple feature shift ineffective. To overcome this issue, we propose query matching across different frames, ensuring that queries for the same object are matched and used for the feature shift. Experimental results show that performance on the JHMDB21 dataset improves significantly when query features are shifted using the proposed query matching.
- Abstract(参考訳): 本稿では,クエリに基づくオブジェクト検出モデルであるDETRを時空間動作検出に拡張する手法を提案する。
提案手法は,各フレームにDETRを適用し,特徴シフトを用いて時間情報を組み込む。
しかし、DETRのオブジェクトクエリは異なるオブジェクトに対応する可能性があるため、単純な機能シフトは効果がない。
この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。
JHMDB21データセットの性能は,提案したクエリマッチングを用いてクエリ機能をシフトした場合に大きく向上することを示す。
関連論文リスト
- Beyond Caption-Based Queries for Video Moment Retrieval [60.31221310786333]
キャプションベースのクエリでトレーニングしたVMR手法の劣化について検討するが,検索クエリで評価した。
3つのパブリックVMRデータセットでテキストクエリを変更することで、3つのベンチマークを導入する。
提案手法は,検索クエリの性能を最大14.82% mAP_m,マルチモーメント検索クエリ最大21.83% mAP_mで改善する。
論文 参考訳(メタデータ) (2026-03-02T20:06:41Z) - WeDetect: Fast Open-Vocabulary Object Detection as Retrieval [74.39703419628829]
Open-vocabularyオブジェクト検出は、テキストプロンプトを通じて任意のクラスを検出することを目的としている。
クロスモーダル融合層(ノンフュージョン)を持たない手法は、認識を検索問題として扱うことにより、より高速な推論を提供する。
WeDetectという名前のモデルファミリを開発し、推論効率の高い15ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-13T12:40:28Z) - Align Your Query: Representation Alignment for Multimodality Medical Object Detection [55.86070915426998]
本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。
モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。
提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-03T07:49:21Z) - Sim-DETR: Unlock DETR for Temporal Sentence Grounding [104.78823923373784]
時間文グラウンドディングは、与えられたテキストクエリに対応するビデオ内の正確なモーメントを特定することを目的としている。
DETRを強化するために設計された典型的な戦略は改善せず、その課題における性能を低下させる可能性さえある。
2つの小さな修正を加えて標準DETRを拡張するSim-DETRを提案する。
論文 参考訳(メタデータ) (2025-09-28T13:21:10Z) - Mitigating Query Selection Bias in Referring Video Object Segmentation [39.39279952650532]
本稿では,参照クエリを3つの特別なコンポーネントに分解するTriple Query former (TQF)を提案する。
テキストの埋め込みにのみ依存するのではなく、我々のクエリは言語的手がかりと視覚的ガイダンスの両方を統合することで動的に構築されます。
論文 参考訳(メタデータ) (2025-09-17T06:17:23Z) - Action tube generation by person query matching for spatio-temporal action detection [0.0]
方法は、IoUベースのリンクやクリップ分割のような後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを生成する。
提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。
アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
論文 参考訳(メタデータ) (2025-03-17T09:26:06Z) - Test-time Adaptation for Cross-modal Retrieval with Query Shift [14.219337695007207]
クロスモーダル検索(TCR)のためのテスト時間適応法を提案する。
本稿では,クエリシフトがクエリモダリティの均一性(すなわちモダリティ内散乱)を低下させるだけでなく,クエリとギャラリーのモダリティのギャップを増幅する。
論文 参考訳(メタデータ) (2024-10-21T04:08:19Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU [0.0]
この研究は、拡張QPのためのクエリにおける情報、ナビゲーション、およびトランザクションベースのインテントを分析した。
効率的なQPのために、データはEpanechnikov Kernel-Ordering Pointsを用いて構造化され、クラスタリング構造(EK-OPTICS)を同定する。
抽出された特徴、検出された意図、構造化データは、MGR-LAU(Multi-head Gated Recurrent Learnable Attention Unit)に入力される。
論文 参考訳(メタデータ) (2024-06-06T20:28:05Z) - TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression [25.180317527112372]
時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である
時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。
本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
論文 参考訳(メタデータ) (2024-04-03T02:16:30Z) - RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection [26.37802649901314]
オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。
本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。
4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-11-29T13:43:17Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - ComplETR: Reducing the cost of annotations for object detection in dense
scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。
これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。
本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文 参考訳(メタデータ) (2022-09-13T00:11:16Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。
本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。
中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。
また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-03-02T14:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。