論文の概要: Learning Concept-Based Visual Causal Transition and Symbolic Reasoning
for Visual Planning
- arxiv url: http://arxiv.org/abs/2310.03325v1
- Date: Thu, 5 Oct 2023 05:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:08:30.554545
- Title: Learning Concept-Based Visual Causal Transition and Symbolic Reasoning
for Visual Planning
- Title(参考訳): 視覚計画のための概念に基づく視覚因果遷移とシンボリック推論
- Authors: Yilue Qian, Peiyu Yu, Ying Nian Wu, Wei Wang, Lifeng Fan
- Abstract要約: ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。
本稿では,概念学習者 (SCL) と視覚因果遷移モデル (ViCT) で構成される解釈可能で一般化可能な視覚計画フレームワークを提案する。
提案モデルの有効性を検証するため,CCTPと呼ばれるAI2-THORに基づく大規模視覚計画データセットを収集する。
- 参考スコア(独自算出の注目度): 39.29343841283777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual planning simulates how humans make decisions to achieve desired goals
in the form of searching for visual causal transitions between an initial
visual state and a final visual goal state. It has become increasingly
important in egocentric vision with its advantages in guiding agents to perform
daily tasks in complex environments. In this paper, we propose an interpretable
and generalizable visual planning framework consisting of i) a novel
Substitution-based Concept Learner (SCL) that abstracts visual inputs into
disentangled concept representations, ii) symbol abstraction and reasoning that
performs task planning via the self-learned symbols, and iii) a Visual Causal
Transition model (ViCT) that grounds visual causal transitions to semantically
similar real-world actions. Given an initial state, we perform goal-conditioned
visual planning with a symbolic reasoning method fueled by the learned
representations and causal transitions to reach the goal state. To verify the
effectiveness of the proposed model, we collect a large-scale visual planning
dataset based on AI2-THOR, dubbed as CCTP. Extensive experiments on this
challenging dataset demonstrate the superior performance of our method in
visual task planning. Empirically, we show that our framework can generalize to
unseen task trajectories and unseen object categories.
- Abstract(参考訳): ビジュアルプランニングは、人間が望ましい目標を達成するための決定を、初期視覚状態と最終視覚目標状態の間の視覚因果遷移を探索する形でシミュレートする。
複雑な環境で日々の作業を行うエージェントの指導に長けており、エゴセントリックなビジョンにおいてますます重要になっている。
本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。
一 視覚入力を不整合概念表現に抽象化する新規な代替型概念学習者(SCL)
二 自己学習記号を通じてタスク計画を行う記号の抽象化及び推論
三 視覚因果遷移モデル(ViCT)で、視覚因果遷移を意味的に類似した現実世界の行動に基礎付ける。
初期状態が与えられた場合、学習された表現と因果遷移によって刺激される記号的推論手法を用いてゴール条件付き視覚計画を行う。
提案モデルの有効性を検証するため,CCTPと呼ばれるAI2-THORに基づく大規模視覚計画データセットを収集する。
この挑戦的なデータセットに対する大規模な実験は、視覚的タスク計画における我々の手法の優れた性能を示す。
経験的に、我々のフレームワークは、見えないタスク軌跡や見えないオブジェクトカテゴリに一般化できることを示す。
関連論文リスト
- What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。