論文の概要: Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.24083v1
- Date: Wed, 25 Mar 2026 08:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.214384
- Title: Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習を用いた知識誘導マニピュレーション
- Authors: Aditya Narendra, Mukhammadrizo Maribjonov, Dmitry Makarov, Dmitry Yudin, Aleksandr Panov,
- Abstract要約: KG-M3POは、知覚、知識、ポリシーを統一する部分的に観察可能な設定でマルチタスクロボット操作を行うためのフレームワークである。
オンラインの3Dシーングラフは、オープン語彙の検出を計量的、リレーショナルな表現に変換する。
- 参考スコア(独自算出の注目度): 43.715148652244864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Knowledge Graph based Massively Multi-task Model-based Policy Optimization (KG-M3PO), a framework for multi-task robotic manipulation in partially observable settings that unifies Perception, Knowledge, and Policy. The method augments egocentric vision with an online 3D scene graph that grounds open-vocabulary detections into a metric, relational representation. A dynamic-relation mechanism updates spatial, containment, and affordance edges at every step, and a graph neural encoder is trained end-to-end through the RL objective so that relational features are shaped directly by control performance. Multiple observation modalities (visual, proprioceptive, linguistic, and graph-based) are encoded into a shared latent space, upon which the RL agent operates to drive the control loop. The policy conditions on lightweight graph queries alongside visual and proprioceptive inputs, yielding a compact, semantically informed state for decision making. Experiments on a suite of manipulation tasks with occlusions, distractors, and layout shifts demonstrate consistent gains over strong baselines: the knowledge-conditioned agent achieves higher success rates, improved sample efficiency, and stronger generalization to novel objects and unseen scene configurations. These results support the premise that structured, continuously maintained world knowledge is a powerful inductive bias for scalable, generalizable manipulation: when the knowledge module participates in the RL computation graph, relational representations align with control, enabling robust long-horizon behavior under partial observability.
- Abstract(参考訳): 本稿では,知識グラフに基づく大規模マルチタスクモデルに基づくポリシー最適化(KG-M3PO)について紹介する。
オンラインの3Dシーングラフは、オープン語彙の検出を計量的、リレーショナルな表現に変換する。
動的リレーション機構は各ステップ毎に空間、封じ込め、余裕エッジを更新し、RL目標を介してグラフニューラルエンコーダをエンドツーエンドに訓練し、リレーショナル特徴を制御性能により直接形成する。
複数の観察モード(視覚、受容、言語、グラフベース)が共有潜在空間に符号化され、RLエージェントが制御ループを駆動する。
軽量グラフクエリのポリシー条件は、視覚的およびプロプリセプティブな入力と共に行われ、意思決定のためのコンパクトで意味的な情報を与える。
知識条件付きエージェントは高い成功率を達成し、サンプル効率を向上し、新しいオブジェクトや見えないシーン構成へのより強力な一般化を実現する。
これらの結果は、構造化された継続的な世界知識は、スケーラブルで一般化可能な操作のための強力な帰納的バイアスである、という前提を支持する:知識モジュールがRL計算グラフに参加するとき、関係表現は制御と整合し、部分観測可能性の下で堅牢な長期的振舞いを可能にする。
関連論文リスト
- Agentic-KGR: Co-evolutionary Knowledge Graph Construction through Multi-Agent Reinforcement Learning [6.665920297143511]
Agentic-KGRは、大規模言語モデル(LLM)と知識グラフ(KG)の共進化を可能にする新しいフレームワークである。
提案手法では,(1)事前定義された境界を超えてグラフを体系的に拡張する動的スキーマ拡張機構,(2)連続最適化によるモデルパラメータと知識構造間の相乗的共進化を可能にする検索強化メモリシステム,(3)適応シーケンス最適化による計算複雑性を低減しつつ,重要な情報を保存する学習可能なマルチスケールプロンプト圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-10-10T09:00:07Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [12.9372563969007]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。
目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。
ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-12T12:00:16Z) - Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Soft Hierarchical Graph Recurrent Networks for Many-Agent Partially
Observable Environments [9.067091068256747]
本稿では,階層型グラフ再帰ネットワーク(HGRN)と呼ばれる新しいネットワーク構造を提案する。
以上の技術に基づいて,Soft-HGRNと呼ばれる値に基づくMADRLアルゴリズムと,SAC-HRGNというアクタクリティカルな変種を提案する。
論文 参考訳(メタデータ) (2021-09-05T09:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。