Fugu-MT 論文翻訳(概要): Representing Positional Information in Generative World Models for Object Manipulation

論文の概要: Representing Positional Information in Generative World Models for Object Manipulation

arxiv url: http://arxiv.org/abs/2409.12005v1
Date: Wed, 18 Sep 2024 14:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 17:24:06.795192
Title: Representing Positional Information in Generative World Models for Object Manipulation
Title（参考訳）: オブジェクト操作のための生成世界モデルにおける位置情報表現
Authors: Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Sai Rajeswar,
Abstract要約: 本稿では,世界モデルに基づくエージェントがオブジェクト配置タスクを解くための汎用的アプローチを提案する。特にLCPでは、目標仕様のためのオブジェクトの位置情報を明示的にキャプチャするオブジェクト中心の潜在表現を採用している。提案手法は複数の操作環境にまたがって厳密に評価され,現行のモデルベース制御手法と比較して良好な性能を示した。
参考スコア（独自算出の注目度）: 12.263162194821787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object manipulation capabilities are essential skills that set apart embodied agents engaging with the world, especially in the realm of robotics. The ability to predict outcomes of interactions with objects is paramount in this setting. While model-based control methods have started to be employed for tackling manipulation tasks, they have faced challenges in accurately manipulating objects. As we analyze the causes of this limitation, we identify the cause of underperformance in the way current world models represent crucial positional information, especially about the target's goal specification for object positioning tasks. We introduce a general approach that empowers world model-based agents to effectively solve object-positioning tasks. We propose two declinations of this approach for generative world models: position-conditioned (PCP) and latent-conditioned (LCP) policy learning. In particular, LCP employs object-centric latent representations that explicitly capture object positional information for goal specification. This naturally leads to the emergence of multimodal capabilities, enabling the specification of goals through spatial coordinates or a visual goal. Our methods are rigorously evaluated across several manipulation environments, showing favorable performance compared to current model-based control approaches.
Abstract（参考訳）: オブジェクト操作能力は、特にロボット工学の領域において、世界に関わるエンボディエージェントを分離するために必要なスキルである。この設定では、オブジェクトとの相互作用の結果を予測する能力が最重要である。モデルに基づく制御手法が操作タスクの処理に使われ始めているが、それらはオブジェクトを正確に操作する際の課題に直面している。この制限の原因を分析することで、現在の世界モデルが重要な位置情報を表現する方法、特に対象位置決めタスクの目標仕様について、過度なパフォーマンスの原因を特定する。我々は、世界モデルに基づくエージェントがオブジェクト配置タスクを効果的に解くための一般的なアプローチを導入する。本稿では, 位置条件付き (PCP) と潜在条件付き (LCP) の2つの政策学習手法を提案する。特にLCPでは、目標仕様のためのオブジェクトの位置情報を明示的にキャプチャするオブジェクト中心の潜在表現を採用している。このことは自然にマルチモーダル能力の出現につながり、空間座標や視覚的目標を通じて目標の指定を可能にする。提案手法は複数の操作環境にまたがって厳密に評価され,現行のモデルベース制御手法と比較して良好な性能を示した。

関連論文リスト

Weakly-supervised Latent Models for Task-specific Visual-Language Control [2.10305808315957]
本稿では,目標状態の監督のみを用いて,共有潜在空間における状態特異的な行動誘発シフトを学習するタスク固有潜在ダイナミクスモデルを提案する。実験では、71%の成功を達成し、未知の画像や指示に一般化する。
論文参考訳（メタデータ） (2025-11-23T07:18:28Z)
When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。 DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文参考訳（メタデータ） (2025-11-08T21:09:44Z)
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration [10.558622685760346]
本稿では,視覚・言語・アクションモデルによるオブジェクトの一般化を実現するための,シンプルで効果的な手法を提案する。我々の手法は、ターゲットオブジェクトに関する知識を注入する軽量でスケーラブルな方法を提供する。我々は、実際のロボットプラットフォーム上でObjectVLAを評価し、64%の成功率で100の新規オブジェクトを一般化できることを実証した。
論文参考訳（メタデータ） (2025-02-26T15:56:36Z)
Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文参考訳（メタデータ） (2024-12-18T13:03:00Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
DistFormer: Enhancing Local and Global Features for Monocular Per-Object Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文参考訳（メタデータ） (2024-01-06T10:56:36Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Object-Driven Active Mapping for More Accurate Object Pose Estimation and Robotic Grasping [5.385583891213281]
このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。マッピングモジュールと探索戦略を組み合わせることにより、ロボットの把握と互換性のある正確なオブジェクトマップを生成することができる。
論文参考訳（メタデータ） (2020-12-03T09:36:55Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。