論文の概要: Choose What to Observe: Task-Aware Semantic-Geometric Representations for Visuomotor Policy
- arxiv url: http://arxiv.org/abs/2603.07875v1
- Date: Mon, 09 Mar 2026 01:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.078273
- Title: Choose What to Observe: Task-Aware Semantic-Geometric Representations for Visuomotor Policy
- Title(参考訳): 観察すべきものを選ぶ: ビジュモータ政策のためのタスク対応意味幾何学的表現
- Authors: Haoran Ding, Liang Ma, Yaxun Yang, Wen Yang, Tianyu Liu, Anqing Duan, Xiaodan Liang, Dezhen Song, Ivan Laptev, Yoshihiko Nakamura,
- Abstract要約: Visuomotor のポリシーは、生の RGB 観測において、過度な視覚的要因に適合するデモから学ぶ。
視覚的入力を共有表現に正準化するタスク対応観察インタフェースを提案する。
我々は,RoboMimic (Lift), ManiSkill YCB grasping under clutter, 4つのRLBench task under control appearance shifts, and two real-world Franka taskについて検討した。
- 参考スコア(独自算出の注目度): 66.60668908340429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visuomotor policies learned from demonstrations often overfit to nuisance visual factors in raw RGB observations, resulting in brittle behavior under appearance shifts such as background changes and object recoloring. We propose a task-aware observation interface that canonicalizes visual input into a shared representation, improving robustness to out-of-distribution (OOD) appearance changes without modifying or fine-tuning the policy. Given an RGB image and an open-vocabulary specification of task-relevant entities, we use SAM3 to segment the target object and robot/gripper. We construct an L0 observation by repainting segmented entities with predefined semantic colors on a constant background. For tasks requiring stronger geometric cues, we further inject monocular depth from Depth Anything 3 into the segmented regions via depth-guided overwrite, yielding a unified semantic--geometric observation (L1) that remains a standard 3-channel, image-like input. We evaluate on RoboMimic (Lift), ManiSkill YCB grasping under clutter, four RLBench tasks under controlled appearance shifts, and two real-world Franka tasks (ReachX and CloseCabinet). Across benchmarks and policy backbones (Flow Matching Policy and SmolVLA), our interface preserves in-distribution performance while substantially improving robustness under OOD visual shifts.
- Abstract(参考訳): デモから学んだビジュモータポリシーは、生のRGB観察において曖昧な視覚的要因に過度に適合し、背景の変化や物体の変色といった外観変化の下で不安定な振る舞いを引き起こす。
本稿では,視覚的入力を共有表現に正準化するタスク対応観察インタフェースを提案する。
RGB画像とタスク関連エンティティのオープンボキャブラリ仕様が与えられた場合、SAM3を用いて対象オブジェクトとロボット/グリッパーをセグメント化する。
一定の背景に予め定義された意味色でセグメント化されたエンティティを塗り替えることでL0観測を構築する。
より強力な幾何学的手がかりを必要とするタスクに対しては、深度誘導上書き(deepth-guided overwrite)によりDepth Anything 3からの単分子深度を分割領域に注入し、標準の3チャンネル画像のような入力のままの統一的な意味幾何学的観察(L1)を行う。
我々は,RoboMimic (Lift), ManiSkill YCB grasping under clutter, and four RLBench task under control appearance shifts, and two real-world Franka task (ReachX and CloseCabinet)について検討した。
ベンチマークやポリシバックボーン(Flow Matching PolicyとSmolVLA)を通じて,OODの視覚的シフト下でのロバスト性を大幅に向上しつつ,分散性能を維持している。
関連論文リスト
- 3SGen: Unified Subject, Style, and Structure-Driven Image Generation with Adaptive Task-specific Memory [54.056509629389915]
3SGenはタスク対応の統一フレームワークで、単一のモデル内で3つの条件付けモードすべてを実行する。
その中核となるのは、Adaptive Task-specific Memory (ATM)モジュールで、動的に切り離され、格納され、条件固有の事前情報を検索する。
本稿では3SGen-Benchを提案する。3SGen-Benchは3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench,3SGen-Bench。
論文 参考訳(メタデータ) (2025-12-22T11:07:27Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning [8.626019848533707]
本稿では,オブジェクト・アセンブリ・タスクのコンテキストにおける視覚表現の堅牢性の評価と評価に焦点をあてる。
我々は視覚前訓練モデルを視覚エンコーダとして利用するビズモータ政策学習の一般的な枠組みを用いる。
本研究は、両腕操作装置に適用する場合、特にグリップ変動に対して、この枠組みの頑健性について検討する。
論文 参考訳(メタデータ) (2023-10-15T20:41:07Z) - Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative
Convolution Network [80.19054069988559]
自己教師付き単眼深度推定は, 方向感度と環境依存性を示す。
本稿では2つの側面において深度表現を改善する方向対応累積畳み込みネットワーク(DaCCN)を提案する。
実験の結果,提案手法は広く使用されている3つのベンチマークにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-08-10T14:32:18Z) - Point-GCC: Universal Self-supervised 3D Scene Pre-training via
Geometry-Color Contrast [9.14535402695962]
点雲によって提供される幾何学と色情報は、3Dシーンの理解に不可欠である。
我々はGeometry-Color Contrast (Point-GCC) を用いたユニバーサル3次元シーン事前学習フレームワークを提案する。
ポイントGCCは、シムズネットワークを用いて幾何学と色情報を整列する。
論文 参考訳(メタデータ) (2023-05-31T07:44:03Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。