論文の概要: Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception
- arxiv url: http://arxiv.org/abs/2403.11616v2
- Date: Tue, 19 Mar 2024 05:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 12:44:53.211141
- Title: Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception
- Title(参考訳): マルチビュービデオベース学習:フレームレベル知覚のための弱ラベルの活用
- Authors: Vijay John, Yasutomo Kawanishi,
- Abstract要約: 本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
- 参考スコア(独自算出の注目度): 1.5741307755393597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For training a video-based action recognition model that accepts multi-view video, annotating frame-level labels is tedious and difficult. However, it is relatively easy to annotate sequence-level labels. This kind of coarse annotations are called as weak labels. However, training a multi-view video-based action recognition model with weak labels for frame-level perception is challenging. In this paper, we propose a novel learning framework, where the weak labels are first used to train a multi-view video-based base model, which is subsequently used for downstream frame-level perception tasks. The base model is trained to obtain individual latent embeddings for each view in the multi-view input. For training the model using the weak labels, we propose a novel latent loss function. We also propose a model that uses the view-specific latent embeddings for downstream frame-level action recognition and detection tasks. The proposed framework is evaluated using the MM Office dataset by comparing several baseline algorithms. The results show that the proposed base model is effectively trained using weak labels and the latent embeddings help the downstream models improve accuracy.
- Abstract(参考訳): マルチビュービデオを受け入れるビデオベースのアクション認識モデルのトレーニングでは,フレームレベルのラベルの注釈付けは面倒で難しい。
しかし、シーケンスレベルのラベルをアノテートするのは比較的容易である。
このような粗いアノテーションは弱いラベルと呼ばれる。
しかし,フレームレベルの認識に弱いラベルを用いた多視点映像に基づく行動認識モデルの訓練は困難である。
本稿では,まず,下流フレームレベルの認識タスクに使用されるマルチビュービデオベースモデルをトレーニングするために,弱いラベルを用いた新しい学習フレームワークを提案する。
ベースモデルは、マルチビュー入力における各ビューに対する個別の潜伏埋め込みを得るために訓練される。
弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。
また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
提案するフレームワークは,MM Officeデータセットを用いて,複数のベースラインアルゴリズムを比較して評価する。
その結果,提案したベースモデルは弱いラベルを用いて効果的に訓練され,潜伏埋め込みは下流モデルの精度向上に役立つことがわかった。
関連論文リスト
- Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization [0.0]
AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。
我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
論文 参考訳(メタデータ) (2023-07-12T18:13:58Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding [27.05117092371221]
本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-08T04:01:08Z) - ActionCLIP: A New Paradigm for Video Action Recognition [14.961103794667341]
ラベルテキストのセマンティック情報に重きを置くことで,行動認識の新しい視点を提供する。
動作認識のためのマルチモーダル学習フレームワークに基づく新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-09-17T11:21:34Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。