論文の概要: Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action
- arxiv url: http://arxiv.org/abs/2509.19571v1
- Date: Tue, 23 Sep 2025 20:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.605999
- Title: Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action
- Title(参考訳): エージェント・シーン・ポリシー:ロボット行動のための空間、セマンティックス、アフォーマンスを統一する
- Authors: Sacha Morin, Kumaraditya Gupta, Mahtab Sandhu, Charlie Gauthier, Francesco Argenziano, Kirsty Ellis, Liam Paull,
- Abstract要約: オープンな自然言語クエリの実行は、ロボティクスにおける中核的な問題である。
本稿では,先進的なセマンティクス,空間,アベイランスに基づくクエリ機能を活用したエージェントフレームワークであるAgenic Scene Policies(ASP)を提案する。
ASP.NETは、オブジェクトの余裕を明示的に推論することで、ゼロショットでオープン語彙クエリを実行することができる。
- 参考スコア(独自算出の注目度): 8.014504445799501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executing open-ended natural language queries is a core problem in robotics. While recent advances in imitation learning and vision-language-actions models (VLAs) have enabled promising end-to-end policies, these models struggle when faced with complex instructions and new scenes. An alternative is to design an explicit scene representation as a queryable interface between the robot and the world, using query results to guide downstream motion planning. In this work, we present Agentic Scene Policies (ASP), an agentic framework that leverages the advanced semantic, spatial, and affordance-based querying capabilities of modern scene representations to implement a capable language-conditioned robot policy. ASP can execute open-vocabulary queries in a zero-shot manner by explicitly reasoning about object affordances in the case of more complex skills. Through extensive experiments, we compare ASP with VLAs on tabletop manipulation problems and showcase how ASP can tackle room-level queries through affordance-guided navigation, and a scaled-up scene representation. (Project page: https://montrealrobotics.ca/agentic-scene-policies.github.io/)
- Abstract(参考訳): オープンな自然言語クエリの実行は、ロボティクスにおける中核的な問題である。
近年の模倣学習と視覚言語アクションモデル(VLA)は、将来性のあるエンドツーエンドのポリシーを実現しているが、これらのモデルは複雑な指示や新しいシーンに直面しているときに苦労している。
もうひとつの方法は、ロボットと世界の間のクエリ可能なインターフェースとして明示的なシーン表現を設計し、クエリ結果を使って下流のモーションプランニングをガイドすることである。
本研究では,現代シーン表現の高度な意味的,空間的,余計なクエリ機能を活用したエージェント・フレームワークであるエージェント・シーン・ポリシー(ASP)について述べる。
ASP.NETは、より複雑なスキルの場合、オブジェクトの余裕を明示的に推論することで、ゼロショットでオープン語彙クエリを実行することができる。
大規模な実験を通じて、テーブルトップ操作問題におけるASPとVLAを比較し、余剰誘導ナビゲーションとスケールアップされたシーン表現を通じて、ASPがルームレベルのクエリにどのように対処できるかを示す。
(プロジェクトページ:https://montrealrobotics.ca/agentic-scene-policies.github.io/)
関連論文リスト
- Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction
Execution for Robots [9.393951367344894]
本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。
我々は、ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに重点を置いている。
我々は3DシミュレータAI2Thorを利用して、大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
論文 参考訳(メタデータ) (2023-07-21T19:09:37Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。