論文の概要: An Action Is Worth Multiple Words: Handling Ambiguity in Action
Recognition
- arxiv url: http://arxiv.org/abs/2210.04933v1
- Date: Mon, 10 Oct 2022 18:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:05:23.603682
- Title: An Action Is Worth Multiple Words: Handling Ambiguity in Action
Recognition
- Title(参考訳): アクションは価値ある複数の単語である:アクション認識における曖昧さを扱う
- Authors: Kiyoon Kim, Davide Moltisanti, Oisin Mac Aodha, Laura Sevilla-Lara
- Abstract要約: 単一正の学習ラベルのみから複数ラベルの行動認識モデルを訓練する上での課題に対処する。
列車内の類似事例からサンプル化した擬似訓練例を生成するための2つの手法を提案する。
複数の動詞ラベルでEPIC-Kitchens-100の検証セットのサブセットを手動でアノテートすることで、新しい評価ベンチマークを作成する。
- 参考スコア(独自算出の注目度): 18.937012620464465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precisely naming the action depicted in a video can be a challenging and
oftentimes ambiguous task. In contrast to object instances represented as nouns
(e.g. dog, cat, chair, etc.), in the case of actions, human annotators
typically lack a consensus as to what constitutes a specific action (e.g.
jogging versus running). In practice, a given video can contain multiple valid
positive annotations for the same action. As a result, video datasets often
contain significant levels of label noise and overlap between the atomic action
classes. In this work, we address the challenge of training multi-label action
recognition models from only single positive training labels. We propose two
approaches that are based on generating pseudo training examples sampled from
similar instances within the train set. Unlike other approaches that use
model-derived pseudo-labels, our pseudo-labels come from human annotations and
are selected based on feature similarity. To validate our approaches, we create
a new evaluation benchmark by manually annotating a subset of
EPIC-Kitchens-100's validation set with multiple verb labels. We present
results on this new test set along with additional results on a new version of
HMDB-51, called Confusing-HMDB-102, where we outperform existing methods in
both cases. Data and code are available at
https://github.com/kiyoon/verb_ambiguity
- Abstract(参考訳): ビデオで描かれたアクションを正確に命名することは困難であり、しばしば曖昧な作業である。
名詞(例えば、犬、猫、椅子など)として表されるオブジェクトのインスタンスとは対照的に、アクションの場合、人間のアノテーションは通常、特定のアクションを構成するもの(例えば、ジョギングとランニング)に関するコンセンサスを欠いている。
実際には、同じアクションに対して複数の有効なポジティブアノテーションを含むことができる。
その結果、ビデオデータセットは、しばしば、アトミックアクションクラス間のラベルノイズと重なりのかなりのレベルを含む。
本稿では,単一の正のトレーニングラベルのみから複数ラベルの行動認識モデルを訓練することの課題について述べる。
列車内の類似事例からサンプル化した擬似訓練例を生成するための2つの手法を提案する。
モデル由来の擬似ラベルを使用する他のアプローチとは異なり、擬似ラベルは人間のアノテーションから生まれ、特徴的類似性に基づいて選択される。
提案手法を検証するため,EPIC-Kitchens-100の検証セットのサブセットを複数ラベルで手動で注釈付けすることで,新しい評価ベンチマークを作成する。
我々は,この新しいテストセットにおける結果と,hmdb-51 の新バージョンである confusion-hmdb-102 のさらなる結果を示す。
データとコードはhttps://github.com/seion/verb_ambiguityで入手できる。
関連論文リスト
- Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Good Instance Classifier is All You Need [18.832471712088353]
MIL設定下では,インスタンスレベルの弱教師付きコントラスト学習アルゴリズムを初めて提案する。
また,プロトタイプ学習による正確な擬似ラベル生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T12:44:52Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - ActiveLab: Active Learning with Re-Labeling by Multiple Annotators [19.84626033109009]
ActiveLabは、バッチアクティブラーニングで次にラベルを付ける方法である。
完全に新しいものをラベル付けするよりも、サンプルを再ラベルする方が有益かどうかを自動的に見積もる。
さまざまなアクティブな学習方法よりもはるかに少ないアノテーションで、より正確な分類器を確実に訓練する。
論文 参考訳(メタデータ) (2023-01-27T17:00:11Z) - Learning with Different Amounts of Annotation: From Zero to Many Labels [19.869498599986006]
NLPシステムのトレーニングは通常、例ごとに1つの人間ラベルを持つ注釈付きデータへのアクセスを前提としている。
我々は、トレーニング例の小さなサブセットに対して、サンプル毎に複数のラベルを割り当てる、新しいアノテーション分布スキームについて検討する。
このような複数ラベルの例を、より少ない例に注釈をつけるコストで導入することは、自然言語推論タスクとエンティティ型付けタスクに明らかな利益をもたらす。
論文 参考訳(メタデータ) (2021-09-09T16:48:41Z) - BABEL: Bodies, Action and Behavior with English Labels [53.83774092560076]
モーキャップシーケンスで実行される動作を記述した言語ラベル付き大規模データセットであるBABELを提案する。
BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。
ベンチマークとしてBABELの価値を実証し、3次元動作認識におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2021-06-17T17:51:14Z) - All Labels Are Not Created Equal: Enhancing Semi-supervision via Label
Grouping and Co-training [32.45488147013166]
Pseudo-labelingは、半教師付き学習(SSL)の鍵となるコンポーネントである
本論文では,ラベルセマンティクスとコトレーニングを活用した問題解決手法であるSemCoを提案する。
提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T07:33:16Z) - Discovering Multi-Label Actor-Action Association in a Weakly Supervised
Setting [22.86745487695168]
マルチインスタンスとマルチラベル学習に基づくベースラインを提案します。
本稿では,個々のアクションクラスをモデル化する代わりに,アクションの集合を表現として利用する新しいアプローチを提案する。
提案手法はMIMLベースラインを上回り,完全教師付きアプローチと競合する,挑戦的データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-01-21T11:59:47Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z) - Weakly-Supervised Action Localization with Expectation-Maximization
Multi-Instance Learning [82.41415008107502]
弱教師付きアクションローカライゼーションでは、ビデオレベルアクションラベルのみを与えられたビデオ内のアクションセグメントをローカライズするモデルをトレーニングする必要がある。
バッグ(ビデオ)には複数のインスタンス(アクションセグメント)が含まれている。
我々のEM-MILアプローチは、学習目標とMIL仮定の両方をより正確にモデル化することを示します。
論文 参考訳(メタデータ) (2020-03-31T23:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。