論文の概要: Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting
- arxiv url: http://arxiv.org/abs/2101.08567v1
- Date: Thu, 21 Jan 2021 11:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:54:55.787167
- Title: Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting
- Title(参考訳): 弱教師環境におけるマルチラベルアクタ-アクション関係の発見
- Authors: Sovan Biswas and Juergen Gall
- Abstract要約: マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 22.86745487695168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since collecting and annotating data for spatio-temporal action detection is
very expensive, there is a need to learn approaches with less supervision.
Weakly supervised approaches do not require any bounding box annotations and
can be trained only from labels that indicate whether an action occurs in a
video clip. Current approaches, however, cannot handle the case when there are
multiple persons in a video that perform multiple actions at the same time. In
this work, we address this very challenging task for the first time. We propose
a baseline based on multi-instance and multi-label learning. Furthermore, we
propose a novel approach that uses sets of actions as representation instead of
modeling individual action classes. Since computing, the probabilities for the
full power set becomes intractable as the number of action classes increases,
we assign an action set to each detected person under the constraint that the
assignment is consistent with the annotation of the video clip. We evaluate the
proposed approach on the challenging AVA dataset where the proposed approach
outperforms the MIML baseline and is competitive to fully supervised
approaches.
- Abstract(参考訳): 時空間的行動検出のためのデータの収集と注釈は非常に高価であるため、少ない監督でアプローチを学ぶ必要がある。
弱い教師付きアプローチはバウンディングボックスアノテーションを一切必要とせず、ビデオクリップでアクションが発生するかどうかを示すラベルからのみトレーニングすることができる。
しかし、現在のアプローチでは、複数のアクションを同時に実行するビデオに複数の人がいる場合、そのケースに対処できない。
この作業では、この非常に困難なタスクに初めて対処します。
本稿では,マルチインスタンス学習とマルチラベル学習に基づくベースラインを提案する。
さらに,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
計算により、動作クラス数が増加するにつれて、全パワーセットの確率が失われるので、各検出された人物に、その割り当てがビデオクリップのアノテーションと一致するという制約の下で、アクションセットを割り当てる。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的なAVAデータセットに対する提案手法の評価を行った。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features [2.8266810371534152]
The Open-vocabulary Temporal Action Detection (Open-vocab TAD) is a Advanced video analysis approach。
提案手法は,Open-vocab と Closed-vocab の両方の設定において,他の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-04-30T13:14:28Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:08:03Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。