論文の概要: Weakly-Supervised Action Localization with Expectation-Maximization
Multi-Instance Learning
- arxiv url: http://arxiv.org/abs/2004.00163v2
- Date: Tue, 25 Aug 2020 19:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:03:56.083293
- Title: Weakly-Supervised Action Localization with Expectation-Maximization
Multi-Instance Learning
- Title(参考訳): 期待最大化マルチインスタンス学習による弱教師付き行動定位
- Authors: Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor
Darrell, Huijuan Xu
- Abstract要約: 弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。
バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。
我々のEM-MILアプローチは、学習目標とMIL仮定の両方をより正確にモデル化することを示します。
- 参考スコア(独自算出の注目度): 82.41415008107502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised action localization requires training a model to localize
the action segments in the video given only video level action label. It can be
solved under the Multiple Instance Learning (MIL) framework, where a bag
(video) contains multiple instances (action segments). Since only the bag's
label is known, the main challenge is assigning which key instances within the
bag to trigger the bag's label. Most previous models use attention-based
approaches applying attentions to generate the bag's representation from
instances, and then train it via the bag's classification. These models,
however, implicitly violate the MIL assumption that instances in negative bags
should be uniformly negative. In this work, we explicitly model the key
instances assignment as a hidden variable and adopt an Expectation-Maximization
(EM) framework. We derive two pseudo-label generation schemes to model the E
and M process and iteratively optimize the likelihood lower bound. We show that
our EM-MIL approach more accurately models both the learning objective and the
MIL assumptions. It achieves state-of-the-art performance on two standard
benchmarks, THUMOS14 and ActivityNet1.2.
- Abstract(参考訳): 弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。
バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。
バッグのラベルのみが知られているため、バッグ内のどのキーインスタンスにバッグのラベルをトリガーするかが主な課題である。
以前のモデルのほとんどは、注意に基づくアプローチを使用して、インスタンスからバッグの表現を生成し、バッグの分類を通じてトレーニングする。
しかし、これらのモデルは、負のバッグのインスタンスが一様に負であるというMILの仮定に暗黙的に違反する。
本研究では、キーインスタンス割り当てを隠れ変数として明示的にモデル化し、期待最大化(EM)フレームワークを採用する。
E と M のプロセスをモデル化するための2つの擬似ラベル生成スキームを導出し、確率下界を反復的に最適化する。
EM-MILアプローチは学習目標とMIL仮定の両方をより正確にモデル化する。
THUMOS14とActivityNet1.2の2つの標準ベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- Reproducibility in Multiple Instance Learning: A Case For Algorithmic
Unit Tests [59.623267208433255]
多重インスタンス学習(MIL)は、正と負のラベルと入力の「バグ」を持つ分類問題のサブドメインである。
本研究では,最も顕著な深層MILモデルの5つについて検討し,いずれも標準MILの仮定を尊重していないことを明らかにする。
提案した"アルゴリズムユニットテスト"によってこの問題を特定し,実証する。そこでは,MILを尊重するモデルによって解決可能な,合成データセットを作成する。
論文 参考訳(メタデータ) (2023-10-27T03:05:11Z) - Rethinking Multiple Instance Learning for Whole Slide Image
Classification: A Good Instance Classifier is All You Need [8.05118395413556]
MIL設定下では,インスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案する。
また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T12:44:52Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。
本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。
位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文 参考訳(メタデータ) (2022-06-22T07:00:39Z) - Model Agnostic Interpretability for Multiple Instance Learning [7.412445894287708]
MIL(Multiple Instance Learning)では、モデルはインスタンスのバッグを使用してトレーニングされる。
本研究では,MILモデルを解釈するための重要な要件を確立する。
そして、これらの要件を満たすいくつかのモデルに依存しないアプローチを開発します。
論文 参考訳(メタデータ) (2022-01-27T17:55:32Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Sparse Network Inversion for Key Instance Detection in Multiple Instance
Learning [24.66638752977373]
複数インスタンス学習(MIL)では、バッグレベルの正または負のラベルを与えられたインスタンスの袋の1つのラベルを予測する。
注目に基づくディープMILモデルは、バッグレベルの分類とキーインスタンス検出の両方において最近の進歩である。
KIDタスクにおける注意に基づく深層MILモデルの改善手法を提案する。
論文 参考訳(メタデータ) (2020-09-07T07:01:59Z) - Dual-stream Maximum Self-attention Multi-instance Learning [11.685285490589981]
MIL(Multi-Instance Learning)は、インスタンスレベルのラベルが利用できない間に単一のクラスラベルがインスタンスのバッグに割り当てられる弱い教師付き学習の一種である。
ニューラルネットワークによりパラメータ化されたDSMILモデル(Dual-stream maximum self-attention MIL model)を提案する。
提案手法は,最高のMIL手法と比較して優れた性能を示し,ベンチマークMILデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2020-06-09T22:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。