論文の概要: ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2406.05722v1
- Date: Sun, 9 Jun 2024 10:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:27:03.035711
- Title: ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition
- Title(参考訳): ALGO:オープンワールド・エゴセントリックな行動認識のためのオブジェクト指向ビジュアルコモンセンス推論
- Authors: Sanjoy Kundu, Shubham Trehan, Sathyanarayanan N. Aakur,
- Abstract要約: 本研究では, ALGO-Action Learning with Grounded Object Recognitionを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
- 参考スコア(独自算出の注目度): 6.253919624802853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to infer labels in an open world, i.e., in an environment where the target "labels" are unknown, is an important characteristic for achieving autonomy. Foundation models pre-trained on enormous amounts of data have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label's search space. In an open world, this target search space can be unknown or exceptionally large, which severely restricts the performance of such models. To tackle this challenging problem, we propose a neuro-symbolic framework called ALGO - Action Learning with Grounded Object recognition that uses symbolic knowledge stored in large-scale knowledge bases to infer activities in egocentric videos with limited supervision using two steps. First, we propose a neuro-symbolic prompting approach that uses object-centric vision-language models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on four publicly available datasets (EPIC-Kitchens, GTEA Gaze, GTEA Gaze Plus) demonstrate its performance on open-world activity inference.
- Abstract(参考訳): オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境で学習することは、自主性を達成する上で重要な特徴である。
膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示してきた。
しかし、その性能は対象ラベルの検索空間の正しさに制限される。
オープンな世界では、この対象の探索空間は未知あるいは例外的に巨大であり、そのようなモデルの性能を著しく制限する。
この課題に対処するために,大規模知識ベースに蓄積された記号的知識を用いて,二つのステップを用いて限定的な監視を行う,ALGO-Action Learning with Grounded Object Recognitionというニューロシンボリックフレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第2に、事前のコモンセンス知識によって、エネルギーに基づくシンボリックパターン理論の枠組みを通して、プラプティブルな活動を発見し、ビデオ内の知識に基づく行動(動詞)の概念を学習する。
公開データセット(EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus)に関する大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスを実証している。
関連論文リスト
- Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning [6.253919624802853]
本稿では,自己中心型ビデオにおける活動を限定的に推測する,ALGOと呼ばれる2段階のニューロシンボリック・フレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2023-05-26T03:21:30Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - HAKE: A Knowledge Engine Foundation for Human Activity Understanding [65.24064718649046]
人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。
本稿では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,解釈可能な論理規則で検出されたプリミティブをプログラムして意味論を推論する。
我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマークよりも優れた一般化能力と性能を示す。
論文 参考訳(メタデータ) (2022-02-14T16:38:31Z) - Opening up Open-World Tracking [62.12659607088812]
オープンワールドトラッキング(OWT)の提案と研究
本稿では,OWTタスクの形式化と評価プロトコルとメトリクス(OWTA)について述べる。
我々のOpen-World Tracking Baselineは、OWT設定でうまく機能する一方で、従来のクローズドワールドベンチマークでほぼ最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T17:58:15Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z) - Knowledge Guided Learning: Towards Open Domain Egocentric Action
Recognition with Zero Supervision [5.28539620288341]
本研究では,エゴセントリックビデオにおける新たな行動の自己監督的な発見を可能にするために,注意と常識の知識が利用できることを示す。
我々は,エゴセントリックビデオにおいて,オープン語彙分類のための新しいクラスを推論し,学習することができることを示す。
論文 参考訳(メタデータ) (2020-09-16T04:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。