論文の概要: Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
- arxiv url: http://arxiv.org/abs/2508.05342v1
- Date: Thu, 07 Aug 2025 12:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.858921
- Title: Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
- Title(参考訳): ビジョン・ランゲージ・アクションモデルを用いた情報理論グラフ融合による政策推論とデュアルロボット制御
- Authors: Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi,
- Abstract要約: Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
- 参考スコア(独自算出の注目度): 22.74768543283102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to generalize across object types, spatial layouts, and manipulator configurations. We propose Graph-Fused Vision-Language-Action (GF-VLA), a framework that enables dual-arm robotic systems to perform task-level reasoning and execution directly from RGB and Depth human demonstrations. GF-VLA first extracts Shannon-information-based cues to identify hands and objects with the highest task relevance, then encodes these cues into temporally ordered scene graphs that capture both hand-object and object-object interactions. These graphs are fused with a language-conditioned transformer that generates hierarchical behavior trees and interpretable Cartesian motion commands. To improve execution efficiency in bimanual settings, we further introduce a cross-hand selection policy that infers optimal gripper assignment without explicit geometric reasoning. We evaluate GF-VLA on four structured dual-arm block assembly tasks involving symbolic shape construction and spatial generalization. Experimental results show that the information-theoretic scene representation achieves over 95 percent graph accuracy and 93 percent subtask segmentation, supporting the LLM planner in generating reliable and human-readable task policies. When executed by the dual-arm robot, these policies yield 94 percent grasp success, 89 percent placement accuracy, and 90 percent overall task success across stacking, letter-building, and geometric reconfiguration scenarios, demonstrating strong generalization and robustness across diverse spatial and semantic variations.
- Abstract(参考訳): ロボットに人間のビデオから巧妙なスキルを教えることは、物体の種類や空間配置、マニピュレータの構成など、低レベルの軌道模倣に依存しているため、依然として難しい。
両腕ロボットシステムがRGBとDepthの人間によるデモンストレーションから直接タスクレベルの推論と実行を行うことを可能にするフレームワークであるGF-VLAを提案する。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最もタスク関連性の高い手や物体を識別する。
これらのグラフは言語条件の変換器で融合され、階層的な振舞い木と解釈可能なカルト運動コマンドを生成する。
両マニュアル設定における実行効率を向上させるために,幾何的推論を伴わずに最適グリップの割り当てを推論するクロスハンド選択ポリシーを導入する。
シンボル形状構築と空間一般化を含む4つの構造化デュアルアームブロック組立タスクにおけるGF-VLAの評価を行った。
実験結果から,情報理論のシーン表現は95%以上のグラフ精度と93%のサブタスクセグメンテーションを達成し,LLMプランナが信頼性と人間可読性のあるタスクポリシーを生成するのをサポートすることがわかった。
デュアルアームロボットが実行すると、これらのポリシーは94%の成功、99%の配置精度、およびスタックング、レタービルディング、幾何学的再構成シナリオ全体の90%のタスク成功を達成し、多様な空間的および意味的バリエーションにまたがる強力な一般化と堅牢性を示す。
関連論文リスト
- AnchorDP3: 3D Affordance Guided Sparse Diffusion Policy for Robotic Manipulation [8.603450327406879]
AnchorDP3は、デュアルアームロボット操作のための拡散ポリシーフレームワークである。
大規模で手続き的に生成されたシミュレーションデータに基づいて訓練される。
RoboTwinベンチマークの平均成功率は98.7%に達する。
論文 参考訳(メタデータ) (2025-06-24T03:03:26Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [7.266794815157721]
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型フレームワークを提案する。
LLMはタスクを分解してグローバルなセマンティックマップを構築し、VLMはタスク特定セマンティックラベルと2次元空間情報を空中画像から抽出し、ローカルプランニングをサポートする。
これは、VLMに基づく認識とLLM駆動のタスク推論とモーションプランニングを統合した地上異種システムの最初の実演である。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - RoboGround: Robotic Manipulation with Grounded Vision-Language Priors [59.31993241876335]
本研究では,効果的な中間表現としての接地マスクについて検討する。
我々は、接地型ロボット操作システムであるRoboGroundを紹介する。
一般化をさらに探求し、拡張するために、大規模なシミュレーションデータを生成する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-30T11:26:40Z) - SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [49.858348469657784]
本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。
セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - ShapeGrasp: Zero-Shot Task-Oriented Grasping with Large Language Models through Geometric Decomposition [8.654140442734354]
不慣れな物体のタスク指向の把握は、動的家庭環境におけるロボットにとって必要なスキルである。
本稿では,対象物体の幾何学的分解を簡単な凸形状に生かしたゼロショットタスク指向の把握手法を提案する。
このアプローチでは、ゼロショットタスク指向の把握を容易にするために、最小限の必須情報(オブジェクト名と意図したタスク)を使用します。
論文 参考訳(メタデータ) (2024-03-26T19:26:53Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。