論文の概要: Knowledge Guided Learning: Towards Open Domain Egocentric Action
Recognition with Zero Supervision
- arxiv url: http://arxiv.org/abs/2009.07470v2
- Date: Sat, 12 Mar 2022 00:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:00:48.236788
- Title: Knowledge Guided Learning: Towards Open Domain Egocentric Action
Recognition with Zero Supervision
- Title(参考訳): 知識誘導学習:ゼロ監督によるオープンドメインエゴセントリック行動認識に向けて
- Authors: Sathyanarayanan N. Aakur, Sanjoy Kundu, Nikhil Gunti
- Abstract要約: 本研究では,エゴセントリックビデオにおける新たな行動の自己監督的な発見を可能にするために,注意と常識の知識が利用できることを示す。
我々は,エゴセントリックビデオにおいて,オープン語彙分類のための新しいクラスを推論し,学習することができることを示す。
- 参考スコア(独自算出の注目度): 5.28539620288341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in deep learning have enabled the development of models that have
exhibited a remarkable tendency to recognize and even localize actions in
videos. However, they tend to experience errors when faced with scenes or
examples beyond their initial training environment. Hence, they fail to adapt
to new domains without significant retraining with large amounts of annotated
data. In this paper, we propose to overcome these limitations by moving to an
open-world setting by decoupling the ideas of recognition and reasoning.
Building upon the compositional representation offered by Grenander's Pattern
Theory formalism, we show that attention and commonsense knowledge can be used
to enable the self-supervised discovery of novel actions in egocentric videos
in an open-world setting, where data from the observed environment (the target
domain) is open i.e., the vocabulary is partially known and training examples
(both labeled and unlabeled) are not available. We show that our approach can
infer and learn novel classes for open vocabulary classification in egocentric
videos and novel object detection with zero supervision. Extensive experiments
show its competitive performance on two publicly available egocentric action
recognition datasets (GTEA Gaze and GTEA Gaze+) under open-world conditions.
- Abstract(参考訳): ディープラーニングの進歩により、ビデオ内のアクションを認識し、ローカライズする顕著な傾向を示すモデルの開発が可能になった。
しかし、最初のトレーニング環境を超えて、シーンや例に直面した時にエラーを経験する傾向がある。
そのため、大量の注釈付きデータで大幅に再トレーニングすることなく、新しいドメインに適応できない。
本稿では,認識と推論の考え方を分離し,オープンワールドに移行することで,これらの制約を克服する。
Grenanderのパターン理論の定式化によって提供される構成表現に基づいて、観察された環境(対象領域)からのデータが開き、部分的には語彙が知られ、トレーニング例(ラベル付きおよびラベルなし)が利用できないオープンワールド環境で、自我中心の動画における新規アクションの自己監督的な発見を可能にするために、注意とコモンセンス知識が利用できることを示す。
本手法は,エゴセントリックビデオにおけるオープン語彙分類のための新しいクラスを推論し,学習できることを示す。
大規模な実験では、オープンワールド条件下で利用可能な2つのエゴセントリックな行動認識データセット(GTEA GazeとGTEA Gaze+)上での競争性能を示している。
関連論文リスト
- ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition [6.253919624802853]
本研究では, ALGO-Action Learning with Grounded Object Recognitionを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2024-06-09T10:30:04Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning [6.253919624802853]
本稿では,自己中心型ビデオにおける活動を限定的に推測する,ALGOと呼ばれる2段階のニューロシンボリック・フレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2023-05-26T03:21:30Z) - Vocabulary-informed Zero-shot and Open-set Learning [128.83517181045815]
本稿では,教師付き,ゼロショット,一般化されたゼロショット,オープンセット認識の問題に対処する語彙インフォームド学習を提案する。
具体的には、(教師なしと教師なしの両方)語彙からの距離制約を取り入れた意味多様体に基づく認識のための重み付けされた最大縁フレームワークを提案する。
得られたモデルは、教師付き、ゼロショット、一般化されたゼロショット、および大きなオープンセット認識の改善を示し、Animal with AttributesとImageNetデータセットで最大310Kの語彙を持つ。
論文 参考訳(メタデータ) (2023-01-03T08:19:22Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Opening Deep Neural Networks with Generative Models [2.0962464943252934]
本稿では,事前学習したDeep Neural Networksに付加して視覚認識を行うことのできる,シンプルでプラグアンドプレイなオープンセット認識モジュールGeMOSを提案する。
GeMOSフレームワークは、事前訓練された畳み込みニューラルネットワークと、オープンセット認識のための生成モデルを組み合わせて、サンプル毎にオープンセットスコアを抽出する。
提案手法を最先端のオープンセットアルゴリズムと比較して徹底的に評価し,GeMOSがより複雑でコストのかかるモデルよりも優れているか,あるいは統計的に区別できないかを見出した。
論文 参考訳(メタデータ) (2021-05-20T20:02:29Z) - Task-Adaptive Negative Class Envision for Few-Shot Open-Set Recognition [36.53830822788852]
新しいソースからのクエリに堅牢な認識システムを学ぶための、数発のオープンセット認識(FSOR)の問題について研究する。
オープン世界をモデル化する新しいタスク適応型負クラスビジュアライゼーション手法(tane)を提案する。
本手法は, オープンセット認識における最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-12-24T02:30:18Z) - A Review of Open-World Learning and Steps Toward Open-World Learning
Without Labels [11.380522815465984]
オープンワールド学習では、エージェントは既知のクラスのセットから始まり、知らないものを検出し、管理し、静止しないデータストリームから時間をかけて学習する。
本稿では,ラベルなしのオープンワールド学習を含む,様々なオープンワールド学習問題を定式化する。
論文 参考訳(メタデータ) (2020-11-25T17:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。