論文の概要: Discovering Novel Actions in an Open World with Object-Grounded Visual
Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2305.16602v1
- Date: Fri, 26 May 2023 03:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:10:12.588998
- Title: Discovering Novel Actions in an Open World with Object-Grounded Visual
Commonsense Reasoning
- Title(参考訳): 視覚コモンセンス推論を用いたオープンワールドにおける新たな行動の発見
- Authors: Sathyanarayanan N. Aakur, Sanjoy Kundu, Shubham Trehan
- Abstract要約: 本稿では,大規模知識ベースに蓄積された記号的知識を用いて,自己中心型ビデオのアクティビティを推論する,ALGOと呼ばれるニューロシンボリック・フレームワークを提案する。
ALGOをゼロショット設定に拡張し,マルチモーダル基礎モデルとの競合性能を示す。
- 参考スコア(独自算出の注目度): 5.28539620288341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to infer labels in an open world, i.e., in an environment where the
target ``labels'' are unknown, is an important characteristic for achieving
autonomy. Foundation models pre-trained on enormous amounts of data have shown
remarkable generalization skills through prompting, particularly in zero-shot
inference. However, their performance is restricted to the correctness of the
target label's search space. In an open world where these labels are unknown,
the search space can be exceptionally large. It can require reasoning over
several combinations of elementary concepts to arrive at an inference, which
severely restricts the performance of such models. To tackle this challenging
problem, we propose a neuro-symbolic framework called ALGO - novel Action
Learning with Grounded Object recognition that can use symbolic knowledge
stored in large-scale knowledge bases to infer activities (verb-noun
combinations) in egocentric videos with limited supervision using two steps.
First, we propose a novel neuro-symbolic prompting approach that uses
object-centric vision-language foundation models as a noisy oracle to ground
objects in the video through evidence-based reasoning. Second, driven by prior
commonsense knowledge, we discover plausible activities through an energy-based
symbolic pattern theory framework and learn to ground knowledge-based action
(verb) concepts in the video. Extensive experiments on two publicly available
datasets (GTEA Gaze and GTEA Gaze Plus) demonstrate its performance on
open-world activity inference and its generalization to unseen actions in an
unknown search space. We show that ALGO can be extended to zero-shot settings
and demonstrate its competitive performance to multimodal foundation models.
- Abstract(参考訳): オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境で学習することは、自主性を達成する上で重要な特徴である。
膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示している。
しかし、それらの性能は対象ラベルの検索空間の正確性に制限される。
これらのラベルが未知のオープンな世界では、検索空間は例外的に大きい。
推論に達するにはいくつかの基本概念の組み合わせを推論する必要があるが、そのようなモデルの性能を厳しく制限する。
この課題に対処するために,本研究では,大規模知識ベースに格納された記号的知識を活用し,2段階の操作を限定したエゴセントリックビデオにおける活動(verb-noun結合)を推測できる,新しい行動学習フレームワークalgoを提案する。
まず,オブジェクト中心の視覚言語基盤モデルを用いて,エビデンスに基づく推論を通じて映像中のオブジェクトをグラウンドする,新たなニューロシンボリック・プロンシング手法を提案する。
第2に,先行するコモンセンス知識を駆使して,エネルギーに基づく象徴的パターン理論の枠組みを通じて,妥当な活動を発見し,ビデオにおける知識ベースアクション(verb)概念の基盤を学習する。
2つの公開データセット(GTEA GazeとGTEA Gaze Plus)の大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスと、未知の検索空間における未知のアクションへの一般化を実証している。
我々は,algoをゼロショット設定に拡張し,マルチモーダル基礎モデルとの競合性を示す。
関連論文リスト
- ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition [6.253919624802853]
本研究では, ALGO-Action Learning with Grounded Object Recognitionを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2024-06-09T10:30:04Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Open Long-Tailed Recognition in a Dynamic World [82.91025831618545]
実世界のデータは、しばしば長い尾を持ち、(目に見えないクラスを持つ)オープンな分布を示す。
現実的な認識システムは、多数派(頭)クラスと少数派(尾)クラスの間でバランスを取り、分布を一般化し、見知らぬクラス(オープンクラス)のインスタンスで新規性を認める必要がある。
我々は,Open Long-Tailed Recognition++を,このような自然分布データからの学習として定義し,バランスの取れたテストセット上での分類精度を最適化する。
論文 参考訳(メタデータ) (2022-08-17T15:22:20Z) - Opening up Open-World Tracking [62.12659607088812]
オープンワールドトラッキング(OWT)の提案と研究
本稿では,OWTタスクの形式化と評価プロトコルとメトリクス(OWTA)について述べる。
我々のOpen-World Tracking Baselineは、OWT設定でうまく機能する一方で、従来のクローズドワールドベンチマークでほぼ最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T17:58:15Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z) - Knowledge Guided Learning: Towards Open Domain Egocentric Action
Recognition with Zero Supervision [5.28539620288341]
本研究では,エゴセントリックビデオにおける新たな行動の自己監督的な発見を可能にするために,注意と常識の知識が利用できることを示す。
我々は,エゴセントリックビデオにおいて,オープン語彙分類のための新しいクラスを推論し,学習することができることを示す。
論文 参考訳(メタデータ) (2020-09-16T04:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。