Fugu-MT 論文翻訳(概要): Query matching for spatio-temporal action detection with query-based object detector

論文の概要: Query matching for spatio-temporal action detection with query-based object detector

arxiv url: http://arxiv.org/abs/2409.18408v1
Date: Fri, 27 Sep 2024 02:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 06:31:22.312876
Title: Query matching for spatio-temporal action detection with query-based object detector
Title（参考訳）: 問合せ型オブジェクト検出器を用いた時空間行動検出のためのクエリマッチング
Authors: Shimon Hori, Kazuki Omi, Toru Tamaki,
Abstract要約: 本稿では,ビデオの時間的一貫性を維持するために,クエリベースのオブジェクト検出モデルであるDETRを拡張する手法を提案する。提案手法は,各フレームにDETRを適用し,時間情報を組み込むために特徴シフトを用いる。この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a method that extends the query-based object detection model, DETR, to spatio-temporal action detection, which requires maintaining temporal consistency in videos. Our proposed method applies DETR to each frame and uses feature shift to incorporate temporal information. However, DETR's object queries in each frame may correspond to different objects, making a simple feature shift ineffective. To overcome this issue, we propose query matching across different frames, ensuring that queries for the same object are matched and used for the feature shift. Experimental results show that performance on the JHMDB21 dataset improves significantly when query features are shifted using the proposed query matching.
Abstract（参考訳）: 本稿では,クエリに基づくオブジェクト検出モデルであるDETRを時空間動作検出に拡張する手法を提案する。提案手法は,各フレームにDETRを適用し,特徴シフトを用いて時間情報を組み込む。しかし、DETRのオブジェクトクエリは異なるオブジェクトに対応する可能性があるため、単純な機能シフトは効果がない。この問題を解決するために、異なるフレーム間のクエリマッチングを提案し、同じオブジェクトのクエリが一致し、機能シフトに使用されることを保証する。 JHMDB21データセットの性能は,提案したクエリマッチングを用いてクエリ機能をシフトした場合に大きく向上することを示す。

関連論文リスト

Action tube generation by person query matching for spatio-temporal action detection [0.0]
方法は、IoUベースのリンクやクリップ分割のような後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを生成する。提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
論文参考訳（メタデータ） (2025-03-17T09:26:06Z)
Test-time Adaptation for Cross-modal Retrieval with Query Shift [14.219337695007207]
クロスモーダル検索(TCR)のためのテスト時間適応法を提案する。本稿では,クエリシフトがクエリモダリティの均一性(すなわちモダリティ内散乱)を低下させるだけでなく,クエリとギャラリーのモダリティのギャップを増幅する。
論文参考訳（メタデータ） (2024-10-21T04:08:19Z)
Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文参考訳（メタデータ） (2024-06-23T05:02:21Z)
User Intent Recognition and Semantic Cache Optimization-Based Query Processing Framework using CFLIS and MGR-LAU [0.0]
この研究は、拡張QPのためのクエリにおける情報、ナビゲーション、およびトランザクションベースのインテントを分析した。効率的なQPのために、データはEpanechnikov Kernel-Ordering Pointsを用いて構造化され、クラスタリング構造(EK-OPTICS)を同定する。抽出された特徴、検出された意図、構造化データは、MGR-LAU(Multi-head Gated Recurrent Learnable Attention Unit)に入力される。
論文参考訳（メタデータ） (2024-06-06T20:28:05Z)
TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression [25.180317527112372]
時間的行動検出(TAD)のためのクエリーベース検出器における手作り部品に依存した正規化座標表現は重要な要素である時間整合座標式を組み込んだフルエンド・ツー・エンドの時間的動作検出変換器であるモデル名を提案する。本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。
論文参考訳（メタデータ） (2024-04-03T02:16:30Z)
RQFormer: Rotated Query Transformer for End-to-End Oriented Object Detection [26.37802649901314]
オブジェクト指向オブジェクト検出は、複数の向き、様々なスケール、密度分布を持つオブジェクトインスタンスの存在により、困難なタスクを呈する。本稿では、2つの重要な技術を統合するRotated Query Transformerと呼ばれるエンドツーエンド指向型検出器を提案する。 4つのリモートセンシングデータセットと1つのシーンテキストデータセットを用いて実験を行い,本手法の有効性を実証した。
論文参考訳（メタデータ） (2023-11-29T13:43:17Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
FAQ: Feature Aggregated Queries for Transformer-based Video Object Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。 ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文参考訳（メタデータ） (2023-03-15T02:14:56Z)
ComplETR: Reducing the cost of annotations for object detection in dense scenes with vision transformers [73.29057814695459]
ComplETRは、部分的にアノテートされた高密度なシーンデータセットで欠落したアノテーションを明示的に補完するように設計されている。これにより、シーン内のすべてのオブジェクトインスタンスに注釈を付ける必要がなくなり、アノテーションのコストが削減される。本稿では, 高速R-CNN, カスケードR-CNN, CenterNet2, Deformable DETRなどの人気検出器の性能向上を示す。
論文参考訳（メタデータ） (2022-09-13T00:11:16Z)
ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文参考訳（メタデータ） (2022-07-14T17:46:37Z)
Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文参考訳（メタデータ） (2021-04-19T17:58:48Z)
Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文参考訳（メタデータ） (2020-05-24T11:37:22Z)
Evaluating Temporal Queries Over Video Feeds [25.04363138106074]
ビデオフィードにおけるオブジェクトとその共起に関する時間的クエリは、法執行機関からセキュリティ、安全に至るまで、多くのアプリケーションにとって関心がある。本稿では,オブジェクト検出/追跡,中間データ生成,クエリ評価という3つのレイヤからなるアーキテクチャを提案する。中間データ生成層における全ての検出対象を整理するために,MFSとSSGという2つの手法を提案する。また、SSGに対して入力フレームを処理し、クエリ評価とは無関係なオブジェクトやフレームを効率よくプーンするState Traversal (ST)アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-03-02T14:55:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。