論文の概要: Visual Environment-Interactive Planning for Embodied Complex-Question Answering
- arxiv url: http://arxiv.org/abs/2504.00775v1
- Date: Tue, 01 Apr 2025 13:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:41.092877
- Title: Visual Environment-Interactive Planning for Embodied Complex-Question Answering
- Title(参考訳): コンプレックスクエスト回答のための視覚環境対話型プランニング
- Authors: Ning Lan, Baoshan Ou, Xuemei Xie, Guangming Shi,
- Abstract要約: 本研究は, Embodied Complex-Question Answeringタスクに焦点をあてる。
このタスクの中核は、視覚環境の知覚に基づいて適切な計画を立てることにある。
本稿では,多段階計画を考えると,計画を逐次的に定式化するための枠組みを提案する。
- 参考スコア(独自算出の注目度): 28.929345360469807
- License:
- Abstract: This study focuses on Embodied Complex-Question Answering task, which means the embodied robot need to understand human questions with intricate structures and abstract semantics. The core of this task lies in making appropriate plans based on the perception of the visual environment. Existing methods often generate plans in a once-for-all manner, i.e., one-step planning. Such approach rely on large models, without sufficient understanding of the environment. Considering multi-step planning, the framework for formulating plans in a sequential manner is proposed in this paper. To ensure the ability of our framework to tackle complex questions, we create a structured semantic space, where hierarchical visual perception and chain expression of the question essence can achieve iterative interaction. This space makes sequential task planning possible. Within the framework, we first parse human natural language based on a visual hierarchical scene graph, which can clarify the intention of the question. Then, we incorporate external rules to make a plan for current step, weakening the reliance on large models. Every plan is generated based on feedback from visual perception, with multiple rounds of interaction until an answer is obtained. This approach enables continuous feedback and adjustment, allowing the robot to optimize its action strategy. To test our framework, we contribute a new dataset with more complex questions. Experimental results demonstrate that our approach performs excellently and stably on complex tasks. And also, the feasibility of our approach in real-world scenarios has been established, indicating its practical applicability.
- Abstract(参考訳): 本研究は,複雑な構造と抽象的意味論を用いて,ロボットが人間の質問を理解する必要があることを示す。
このタスクの中核は、視覚環境の知覚に基づいて適切な計画を立てることにある。
既存の手法はしばしば1段階の計画、すなわち1段階の計画を生成する。
このようなアプローチは環境を十分に理解することなく、大きなモデルに依存している。
本稿では,多段階計画を考えると,計画を逐次的に定式化するための枠組みを提案する。
複雑な問題に対処するためのフレームワークの能力を確保するために、階層的な視覚知覚と質問の本質の連鎖表現が反復的相互作用を達成できる構造的意味空間を構築する。
この空間はシーケンシャルなタスク計画を可能にします。
フレームワーク内では、まず視覚的階層的なシーングラフに基づいて人間の自然言語を解析し、質問の意図を明らかにする。
そして、現在のステップの計画を立てるために外部ルールを導入し、大規模モデルへの依存を弱める。
すべてのプランは視覚的知覚からのフィードバックに基づいて生成され、回答が得られるまで、複数のラウンドのインタラクションが実行される。
このアプローチは、継続的なフィードバックと調整を可能にし、ロボットがアクション戦略を最適化することを可能にする。
フレームワークをテストするために、より複雑な質問で新しいデータセットを提供しています。
実験結果から,本手法は複雑なタスクに対して良好かつ安定に機能することが示された。
また、現実シナリオにおける我々のアプローチの実現可能性も確立されており、その実用性を示している。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following [17.608330952846075]
EIF(Embodied Instruction following)は、対話型環境でオブジェクトをナビゲートし、対話することによって自然言語命令を実行するタスクである。
EIFにおける重要な課題は、典型的には教師付き学習やラベル付きデータによる少数ショットのインコンテキスト学習を通じて対処される構成的タスク計画である。
本稿では,自己QAに基づくゼロショット計画手法であるソクラティック・プランナーを紹介する。
論文 参考訳(メタデータ) (2024-04-21T08:10:20Z) - Deep hybrid models: infer and plan in a dynamic world [0.0]
複雑な制御タスクに対する能動推論に基づく解を提案する。
提案したアーキテクチャは、ハイブリッド(離散および連続)処理を利用する。
モデルが異なる条件下で提示された課題に対処できることが示される。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making [9.302910360945042]
複雑な現実世界のタスクから抽出された事前知識による計画は、人間が正確な決定を行うために不可欠である。
マルチエンコーダと個別予測器を導入し、簡単なサブタスクのための十分なデータからタスク固有表現を学習する。
また、注意機構を用いてトップkのサブタスク計画木を生成し、未確認タスクの複雑な決定を導くためにサブタスク実行計画をカスタマイズする。
論文 参考訳(メタデータ) (2023-12-18T09:00:31Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - CoPAL: Corrective Planning of Robot Actions with Large Language Models [7.944803163555092]
本稿では,認知レベル間のシームレスな相互作用を編成し,推論,計画,動作生成を包含するシステムアーキテクチャを提案する。
中心となるのは、生成した計画における物理的に基底的、論理的、セマンティックなエラーを処理する、新しいリプラン戦略である。
論文 参考訳(メタデータ) (2023-10-11T07:39:42Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Deep compositional robotic planners that follow natural language
commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文 参考訳(メタデータ) (2020-02-12T19:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。