論文の概要: Scaling Open-Vocabulary Action Detection
- arxiv url: http://arxiv.org/abs/2504.03096v1
- Date: Fri, 04 Apr 2025 00:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:24.020570
- Title: Scaling Open-Vocabulary Action Detection
- Title(参考訳): オープンボキャブラリ動作検出のスケーリング
- Authors: Zhen Hao Sia, Yogesh Singh Rawat,
- Abstract要約: ビデオアクション検出のためのエンコーダのみのマルチモーダルモデルを導入し、ビデオアクション検出のためのパラメータ重付加への依存を減らす。
我々は、既存のクローズドセットアクション検出データセットをトレーニングに使用せずに評価するための新しいベンチマークを作成し、将来の作業のベースラインとなる新しい結果を示す。
- 参考スコア(独自算出の注目度): 3.1844358655583846
- License:
- Abstract: In this work, we focus on scaling open-vocabulary action detection. Existing approaches for action detection are predominantly limited to closed-set scenarios and rely on complex, parameter-heavy architectures. Extending these models to the open-vocabulary setting poses two key challenges: (1) the lack of large-scale datasets with many action classes for robust training, and (2) parameter-heavy adaptations to a pretrained vision-language contrastive model to convert it for detection, risking overfitting the additional non-pretrained parameters to base action classes. Firstly, we introduce an encoder-only multimodal model for video action detection, reducing the reliance on parameter-heavy additions for video action detection. Secondly, we introduce a simple weakly supervised training strategy to exploit an existing closed-set action detection dataset for pretraining. Finally, we depart from the ill-posed base-to-novel benchmark used by prior works in open-vocabulary action detection and devise a new benchmark to evaluate on existing closed-set action detection datasets without ever using them for training, showing novel results to serve as baselines for future work.
- Abstract(参考訳): 本研究は,オープンボキャブラリ動作検出のスケールアップに重点を置いている。
既存のアクション検出のアプローチは主にクローズドセットのシナリオに限られており、複雑なパラメータ重アーキテクチャに依存している。
これらのモデルをオープン語彙設定に拡張することは、(1) 堅牢なトレーニングのために多くのアクションクラスを持つ大規模データセットが欠如していること、(2) 事前訓練された視覚言語コントラストモデルへのパラメータ重い適応が検出のために変換され、追加の非制約パラメータをベースアクションクラスに過度に適合させるリスクがある、という2つの大きな課題をもたらす。
まず、ビデオアクション検出のためのエンコーダのみのマルチモーダルモデルを導入し、ビデオアクション検出のためのパラメータ重付加への依存を減らす。
第二に、既存のクローズドセットアクション検出データセットを事前学習に活用するための、シンプルな弱教師付きトレーニング戦略を導入する。
最後に、オープンボキャブラリアクション検出の先行研究で用いた不正なベース・ツー・ノーベル・ベンチマークから脱却し、既存のクローズドセットアクション検出データセットをトレーニングに使用せずに評価するための新しいベンチマークを考案し、将来の作業のベースラインとなる新しい結果を示す。
関連論文リスト
- Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Meta-tuning Loss Functions and Data Augmentation for Few-shot Object
Detection [7.262048441360132]
少ないショットのオブジェクト検出は、少数ショットの学習とオブジェクト検出という領域において、新たなトピックである。
本稿では,数発検出を促進できる帰納的バイアスの学習を可能にする訓練手法を提案する。
提案手法は,高パラメトリックかつ複雑な数ショットメタモデルとは対照的に,解釈可能な損失関数を生成する。
論文 参考訳(メタデータ) (2023-04-24T15:14:16Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Open Set Action Recognition via Multi-Label Evidential Learning [25.15753429188536]
MULE(MUlti-Label Evidential Learning)を用いたオープンセット行動認識と新規性検出のための新しい手法を提案する。
我々のBeta Evidential Neural Networkは、アクター-コンテキスト-オブジェクト関係表現に基づくベータ密度によるマルチアクション不確かさを推定する。
提案手法は,シングル/マルチアクタ,シングル/マルチアクション設定において有望な性能を実現する。
論文 参考訳(メタデータ) (2023-02-27T18:34:18Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。