論文の概要: Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2305.16602v2
- Date: Fri, 3 May 2024 14:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:26:14.413586
- Title: Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning
- Title(参考訳): オブジェクトを囲むビジュアルコモンセンス推論によるオープンワールドエゴシックビデオからの新たなアクションの発見
- Authors: Sanjoy Kundu, Shubham Trehan, Sathyanarayanan N. Aakur,
- Abstract要約: 本稿では,自己中心型ビデオにおける活動を限定的に推測する,ALGOと呼ばれる2段階のニューロシンボリック・フレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
- 参考スコア(独自算出の注目度): 6.253919624802853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to infer labels in an open world, i.e., in an environment where the target ``labels'' are unknown, is an important characteristic for achieving autonomy. Foundation models, pre-trained on enormous amounts of data, have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label's search space, i.e., candidate labels provided in the prompt. This target search space can be unknown or exceptionally large in an open world, severely restricting their performance. To tackle this challenging problem, we propose a two-step, neuro-symbolic framework called ALGO - Action Learning with Grounded Object recognition that uses symbolic knowledge stored in large-scale knowledge bases to infer activities in egocentric videos with limited supervision. First, we propose a neuro-symbolic prompting approach that uses object-centric vision-language models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on four publicly available datasets (EPIC-Kitchens, GTEA Gaze, GTEA Gaze Plus, and Charades-Ego) demonstrate its performance on open-world activity inference. We also show that ALGO can be extended to zero-shot inference and demonstrate its competitive performance on the Charades-Ego dataset.
- Abstract(参考訳): オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境において学習することは、自主性を達成する上で重要な特徴である。
膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示してきた。
しかし、それらの性能は、ターゲットラベルの検索空間、すなわちプロンプトに提供される候補ラベルの正確性に制限される。
このターゲット探索空間は、オープンな世界では未知あるいは例外的に大きくなり、その性能を著しく制限する。
この課題に対処するために,大規模な知識ベースに蓄積された記号的知識を用いて,監督が限定された自己中心型ビデオのアクティビティを推論する,ALGO-Action Learning with Grounded Object Recognitionと呼ばれる2段階のニューロシンボリックフレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第2に、事前のコモンセンス知識によって、エネルギーに基づくシンボリックパターン理論の枠組みを通して、プラプティブルな活動を発見し、ビデオ内の知識に基づく行動(動詞)の概念を学習する。
公開されている4つのデータセット(EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus、Charades-Ego)に対する大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスを実証している。
また、ALGOをゼロショット推論に拡張し、Charades-Egoデータセット上での競合性能を示すことも示す。
関連論文リスト
- ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition [6.253919624802853]
本研究では, ALGO-Action Learning with Grounded Object Recognitionを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2024-06-09T10:30:04Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - Opening up Open-World Tracking [62.12659607088812]
オープンワールドトラッキング(OWT)の提案と研究
本稿では,OWTタスクの形式化と評価プロトコルとメトリクス(OWTA)について述べる。
我々のOpen-World Tracking Baselineは、OWT設定でうまく機能する一方で、従来のクローズドワールドベンチマークでほぼ最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T17:58:15Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z) - Knowledge Guided Learning: Towards Open Domain Egocentric Action
Recognition with Zero Supervision [5.28539620288341]
本研究では,エゴセントリックビデオにおける新たな行動の自己監督的な発見を可能にするために,注意と常識の知識が利用できることを示す。
我々は,エゴセントリックビデオにおいて,オープン語彙分類のための新しいクラスを推論し,学習することができることを示す。
論文 参考訳(メタデータ) (2020-09-16T04:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。