論文の概要: Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting
- arxiv url: http://arxiv.org/abs/2101.08567v1
- Date: Thu, 21 Jan 2021 11:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:54:55.787167
- Title: Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting
- Title(参考訳): 弱教師環境におけるマルチラベルアクタ-アクション関係の発見
- Authors: Sovan Biswas and Juergen Gall
- Abstract要約: マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 22.86745487695168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since collecting and annotating data for spatio-temporal action detection is
very expensive, there is a need to learn approaches with less supervision.
Weakly supervised approaches do not require any bounding box annotations and
can be trained only from labels that indicate whether an action occurs in a
video clip. Current approaches, however, cannot handle the case when there are
multiple persons in a video that perform multiple actions at the same time. In
this work, we address this very challenging task for the first time. We propose
a baseline based on multi-instance and multi-label learning. Furthermore, we
propose a novel approach that uses sets of actions as representation instead of
modeling individual action classes. Since computing, the probabilities for the
full power set becomes intractable as the number of action classes increases,
we assign an action set to each detected person under the constraint that the
assignment is consistent with the annotation of the video clip. We evaluate the
proposed approach on the challenging AVA dataset where the proposed approach
outperforms the MIML baseline and is competitive to fully supervised
approaches.
- Abstract(参考訳): 時空間的行動検出のためのデータの収集と注釈は非常に高価であるため、少ない監督でアプローチを学ぶ必要がある。
弱い教師付きアプローチはバウンディングボックスアノテーションを一切必要とせず、ビデオクリップでアクションが発生するかどうかを示すラベルからのみトレーニングすることができる。
しかし、現在のアプローチでは、複数のアクションを同時に実行するビデオに複数の人がいる場合、そのケースに対処できない。
この作業では、この非常に困難なタスクに初めて対処します。
本稿では,マルチインスタンス学習とマルチラベル学習に基づくベースラインを提案する。
さらに,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
計算により、動作クラス数が増加するにつれて、全パワーセットの確率が失われるので、各検出された人物に、その割り当てがビデオクリップのアノテーションと一致するという制約の下で、アクションセットを割り当てる。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的なAVAデータセットに対する提案手法の評価を行った。
関連論文リスト
- Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - PointTAD: Multi-Label Temporal Action Detection with Learnable Query
Points [28.607690605262878]
時間的アクション検出(TAD)は通常、単一のラベルから少数のアクションインスタンスを持つ未トリミングビデオを処理する。
本稿では,マルチラベル・アントリム映像からすべてのアクション・インスタンスをローカライズすることを目的とした,マルチラベル・テンポラル・アクション検出の課題に焦点をあてる。
本稿では,従来のTADからスパースクエリに基づく検出パラダイムを拡張し,PointTADのマルチラベルTADフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:08:03Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。