Fugu-MT 論文翻訳(概要): Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning

論文の概要: Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning

arxiv url: http://arxiv.org/abs/2004.00163v2
Date: Tue, 25 Aug 2020 19:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 00:03:56.083293
Title: Weakly-Supervised Action Localization with Expectation-Maximization Multi-Instance Learning
Title（参考訳）: 期待最大化マルチインスタンス学習による弱教師付き行動定位
Authors: Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, Huijuan Xu
Abstract要約: 弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。我々のEM-MILアプローチは、学習目標とMIL仮定の両方をより正確にモデル化することを示します。
参考スコア（独自算出の注目度）: 82.41415008107502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly-supervised action localization requires training a model to localize the action segments in the video given only video level action label. It can be solved under the Multiple Instance Learning (MIL) framework, where a bag (video) contains multiple instances (action segments). Since only the bag's label is known, the main challenge is assigning which key instances within the bag to trigger the bag's label. Most previous models use attention-based approaches applying attentions to generate the bag's representation from instances, and then train it via the bag's classification. These models, however, implicitly violate the MIL assumption that instances in negative bags should be uniformly negative. In this work, we explicitly model the key instances assignment as a hidden variable and adopt an Expectation-Maximization (EM) framework. We derive two pseudo-label generation schemes to model the E and M process and iteratively optimize the likelihood lower bound. We show that our EM-MIL approach more accurately models both the learning objective and the MIL assumptions. It achieves state-of-the-art performance on two standard benchmarks, THUMOS14 and ActivityNet1.2.
Abstract（参考訳）: 弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。バッグのラベルのみが知られているため、バッグ内のどのキーインスタンスにバッグのラベルをトリガーするかが主な課題である。以前のモデルのほとんどは、注意に基づくアプローチを使用して、インスタンスからバッグの表現を生成し、バッグの分類を通じてトレーニングする。しかし、これらのモデルは、負のバッグのインスタンスが一様に負であるというMILの仮定に暗黙的に違反する。本研究では、キーインスタンス割り当てを隠れ変数として明示的にモデル化し、期待最大化(EM)フレームワークを採用する。 E と M のプロセスをモデル化するための2つの擬似ラベル生成スキームを導出し、確率下界を反復的に最適化する。 EM-MILアプローチは学習目標とMIL仮定の両方をより正確にモデル化する。 THUMOS14とActivityNet1.2の2つの標準ベンチマークで最先端のパフォーマンスを実現している。

関連論文リスト

Sm: enhanced localization in Multiple Instance Learning for medical imaging classification [11.727293641333713]
マルチ・インスタンス・ラーニング(MIL)は医療画像分類において、ラベル付けの労力を減らすために広く用いられている。ローカル依存関係をモデル化するための,新しい,原則付き,フレキシブルなメカニズムを提案する。我々のモジュールは、最先端のローカライゼーションにおいて、競争力や優越性を保ちながら、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-04T09:49:28Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
Reproducibility in Multiple Instance Learning: A Case For Algorithmic Unit Tests [59.623267208433255]
多重インスタンス学習(MIL)は、正と負のラベルと入力の「バグ」を持つ分類問題のサブドメインである。本研究では,最も顕著な深層MILモデルの5つについて検討し,いずれも標準MILの仮定を尊重していないことを明らかにする。提案した"アルゴリズムユニットテスト"によってこの問題を特定し,実証する。そこでは,MILを尊重するモデルによって解決可能な,合成データセットを作成する。
論文参考訳（メタデータ） (2023-10-27T03:05:11Z)
Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Good Instance Classifier is All You Need [18.832471712088353]
MIL設定下では,インスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案する。また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。
論文参考訳（メタデータ） (2023-07-05T12:44:52Z)
Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T13:25:17Z)
MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。近年のAL法と比較すると,最先端の結果が得られている。
論文参考訳（メタデータ） (2023-01-04T10:52:02Z)
Feature Re-calibration based MIL for Whole Slide Image Classification [7.92885032436243]
全スライド画像(WSI)分類は疾患の診断と治療の基本的な課題である。本稿では,WSI バッグ (インスタンス) の分布を,最大インスタンス (クリティカル) 特性の統計値を用いて再校正することを提案する。位置符号化モジュール(PEM)を用いて空間・形態情報をモデル化し,マルチヘッド自己アテンション(PSMA)をトランスフォーマーエンコーダでプーリングする。
論文参考訳（メタデータ） (2022-06-22T07:00:39Z)
Model Agnostic Interpretability for Multiple Instance Learning [7.412445894287708]
MIL(Multiple Instance Learning)では、モデルはインスタンスのバッグを使用してトレーニングされる。本研究では,MILモデルを解釈するための重要な要件を確立する。そして、これらの要件を満たすいくつかのモデルに依存しないアプローチを開発します。
論文参考訳（メタデータ） (2022-01-27T17:55:32Z)
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文参考訳（メタデータ） (2021-01-18T12:46:24Z)
Dual-stream Maximum Self-attention Multi-instance Learning [11.685285490589981]
MIL(Multi-Instance Learning)は、インスタンスレベルのラベルが利用できない間に単一のクラスラベルがインスタンスのバッグに割り当てられる弱い教師付き学習の一種である。ニューラルネットワークによりパラメータ化されたDSMILモデル(Dual-stream maximum self-attention MIL model)を提案する。提案手法は,最高のMIL手法と比較して優れた性能を示し,ベンチマークMILデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2020-06-09T22:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。