Fugu-MT 論文翻訳(概要): Classification Matters: Improving Video Action Detection with Class-Specific Attention

論文の概要: Classification Matters: Improving Video Action Detection with Class-Specific Attention

arxiv url: http://arxiv.org/abs/2407.19698v4
Date: Wed, 11 Sep 2024 06:56:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 20:32:18.220967
Title: Classification Matters: Improving Video Action Detection with Class-Specific Attention
Title（参考訳）: 分類事項:クラス別注意による映像行動検出の改善
Authors: Jinsung Lee, Taeoh Kim, Inwoong Lee, Minho Shim, Dongyoon Wee, Minsu Cho, Suha Kwak,
Abstract要約: ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。一般的な手法が、分類のための特徴をどう形成するかを分析し、アクター領域の優先順位付けを行う。本稿では,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
参考スコア（独自算出の注目度）: 61.14469113965433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video action detection (VAD) aims to detect actors and classify their actions in a video. We figure that VAD suffers more from classification rather than localization of actors. Hence, we analyze how prevailing methods form features for classification and find that they prioritize actor regions, yet often overlooking the essential contextual information necessary for accurate classification. Accordingly, we propose to reduce the bias toward actor and encourage paying attention to the context that is relevant to each action class. By assigning a class-dedicated query to each action class, our model can dynamically determine where to focus for effective classification. The proposed model demonstrates superior performance on three challenging benchmarks with significantly fewer parameters and less computation.
Abstract（参考訳）: ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。 VADはアクターのローカライゼーションよりも分類に苦しむ。そこで,本研究では,一般的な手法が分類のための特徴をどう形成するかを分析し,それらがアクター領域を優先するが,正確な分類に必要なコンテキスト情報を見越すことが多い。そこで我々は,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。クラス指定クエリを各アクションクラスに割り当てることで、モデルが効果的に分類する場所を動的に決定できる。提案モデルでは,パラメータが大幅に少なく,計算量も少ない3つのベンチマークにおいて,優れた性能を示す。

関連論文リスト

Action-Agnostic Point-Level Supervision for Temporal Action Detection [55.86569092972912]
そこで本研究では,光注釈付きデータセットを用いた時間的行動検出のためのアクション非依存のポイントレベル監視を提案する。提案手法では,ビデオフレームのごく一部を教師なしの方法でサンプリングし,人間のアノテータに提示し,そのフレームにアクションカテゴリをラベル付けする。トリミングされていないビデオですべてのアクションインスタンスを検索するアノテータを必要とするポイントレベルの監視とは異なり、アノテートするフレームは人間の介入なしに選択される。
論文参考訳（メタデータ） (2024-12-30T18:59:55Z)
A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文参考訳（メタデータ） (2024-07-20T03:53:32Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文参考訳（メタデータ） (2023-08-19T08:45:49Z)
Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文参考訳（メタデータ） (2023-03-21T10:40:13Z)
Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文参考訳（メタデータ） (2022-05-21T07:41:27Z)
Self-supervised Pretraining with Classification Labels for Temporal Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文参考訳（メタデータ） (2021-11-26T18:59:28Z)
TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文参考訳（メタデータ） (2021-06-21T15:08:08Z)
Exploiting stance hierarchies for cost-sensitive stance detection of Web documents [24.898077978955406]
スタンス検出は、請求書に対する文書の位置(スタンス)を特定することを目的としている。本稿では,カスケードバイナリ分類器のモジュールパイプラインを提案する。マイノリティクラスの誤分類コストを強調するニューラルネットワークと従来の分類モデルを組み合わせることで、我々のアプローチを実装します。
論文参考訳（メタデータ） (2020-07-29T21:40:01Z)
Fine-Grained Visual Classification with Efficient End-to-end Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文参考訳（メタデータ） (2020-05-11T14:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。