論文の概要: INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM
- arxiv url: http://arxiv.org/abs/2508.04931v1
- Date: Wed, 06 Aug 2025 23:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.662547
- Title: INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM
- Title(参考訳): インテンション:対話型直観と接地型VLMによるヒューマノイドロボットの動作傾向の予測
- Authors: Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis,
- Abstract要約: 本研究では,学習した対話的直感と自律的操作を多様なシナリオで実現可能な,新しいフレームワークINTENTIONを提案する。
実世界のさまざまなタスクに対する人間的な理解と意思決定を具現化した,過去のタスクインタラクションのシーンを記録するために,メモリグラフを導入した。
一方,視覚シーンから身体的関係や余裕を抽出する直感的知覚器を設計する。
- 参考スコア(独自算出の注目度): 9.217332197059001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional control and planning for robotic manipulation heavily rely on precise physical models and predefined action sequences. While effective in structured environments, such approaches often fail in real-world scenarios due to modeling inaccuracies and struggle to generalize to novel tasks. In contrast, humans intuitively interact with their surroundings, demonstrating remarkable adaptability, making efficient decisions through implicit physical understanding. In this work, we propose INTENTION, a novel framework enabling robots with learned interactive intuition and autonomous manipulation in diverse scenarios, by integrating Vision-Language Models (VLMs) based scene reasoning with interaction-driven memory. We introduce Memory Graph to record scenes from previous task interactions which embodies human-like understanding and decision-making about different tasks in real world. Meanwhile, we design an Intuitive Perceptor that extracts physical relations and affordances from visual scenes. Together, these components empower robots to infer appropriate interaction behaviors in new scenes without relying on repetitive instructions. Videos: https://robo-intention.github.io
- Abstract(参考訳): ロボット操作の伝統的な制御と計画は、正確な物理モデルと事前に定義されたアクションシーケンスに大きく依存している。
構造化環境では有効であるが、そのような手法は不正確さをモデル化し、新しいタスクに一般化するのに苦労するため、現実のシナリオでは失敗することが多い。
対照的に、人間は環境と直感的に相互作用し、顕著な適応性を示し、暗黙の物理的理解を通じて効率的な決定を行う。
本研究では,視覚言語モデル(VLM)に基づくシーン推論とインタラクション駆動メモリの統合により,学習した対話的直観と自律的操作を多様なシナリオで実現する新しいフレームワークINTENTIONを提案する。
実世界のさまざまなタスクに対する人間的な理解と意思決定を具現化した,過去のタスクインタラクションのシーンを記録するために,メモリグラフを導入した。
一方,視覚シーンから身体的関係や余裕を抽出する直感的知覚器を設計する。
これらのコンポーネントを組み合わせることで、ロボットは反復的な指示に頼ることなく、新しいシーンで適切なインタラクション行動を予測することができる。
ビデオ:https://robo-intention.github.io
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Ditto in the House: Building Articulation Models of Indoor Scenes
through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。
この課題にインタラクティブな認識アプローチを導入する。
シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-02T18:22:00Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。