論文の概要: Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2511.18140v1
- Date: Sat, 22 Nov 2025 17:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.647176
- Title: Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting
- Title(参考訳): オブザーバアクタ:スパースビューガウススプラッティングによる能動視覚模倣学習
- Authors: Yilong Wang, Cheng Qian, Ruomeng Fan, Edward Johns,
- Abstract要約: 本稿では,アクターに対して最適な視覚観察を行うための,アクティブな視覚模倣学習のための新しいフレームワークを提案する。
両腕ロボットシステムに手首搭載カメラを搭載したObActについて検討する。
- 参考スコア(独自算出の注目度): 13.885595285573755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Observer Actor (ObAct), a novel framework for active vision imitation learning in which the observer moves to optimal visual observations for the actor. We study ObAct on a dual-arm robotic system equipped with wrist-mounted cameras. At test time, ObAct dynamically assigns observer and actor roles: the observer arm constructs a 3D Gaussian Splatting (3DGS) representation from three images, virtually explores this to find an optimal camera pose, then moves to this pose; the actor arm then executes a policy using the observer's observations. This formulation enhances the clarity and visibility of both the object and the gripper in the policy's observations. As a result, we enable the training of ambidextrous policies on observations that remain closer to the occlusion-free training distribution, leading to more robust policies. We study this formulation with two existing imitation learning methods -- trajectory transfer and behavior cloning -- and experiments show that ObAct significantly outperforms static-camera setups: trajectory transfer improves by 145% without occlusion and 233% with occlusion, while behavior cloning improves by 75% and 143%, respectively. Videos are available at https://obact.github.io.
- Abstract(参考訳): 能動視覚模倣学習のための新しいフレームワークであるオブザーバ・アクター(ObAct)を提案する。
両腕ロボットシステムに手首搭載カメラを搭載したObActについて検討する。
オブザーバーアームは3つの画像から3Dガウススプラッティング(3DGS)表現を構築し、これを仮想的に探索して最適なカメラポーズを見つけ、次にこのポーズに移動し、アクターアームはオブザーバーの観察を使用してポリシーを実行する。
この定式化は、政策の観察における対象とグリップの両方の明確さと可視性を高める。
その結果, 偏差のない学習分布に近づき, より堅牢な政策へと至る観察上の曖昧な政策の訓練が可能となった。
この定式化を既存の2つの模倣学習手法(軌道移動と行動クローニング)を用いて研究し、ObActが静的カメラ装置を著しく上回り、軌道移動は閉塞なしで145%改善し、233%は閉塞で改善し、行動クローニングは75%と143%改善したことを示す。
ビデオはhttps://obact.github.io.comで公開されている。
関連論文リスト
- MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation [19.17977467107072]
本モデルでは,カメラのNext-Best-View(NBV)ポリシーとグリップのNext-Best Pose(NBP)ポリシーを直列接続し,数発の強化学習を用いてセンサ・モーター協調フレームワークでトレーニングする。
このアプローチにより、エージェントは3人称カメラを調整し、タスクゴールに基づいて環境を積極的に観察し、その後に適切な操作行動を推測することができる。
その結果,操作タスクにおける視覚的制約処理の有効性を示すとともに,ベースラインアルゴリズムを一貫して上回る結果が得られた。
論文 参考訳(メタデータ) (2024-09-23T10:38:20Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-08-31T18:49:38Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - SeCo: Exploring Sequence Supervision for Unsupervised Representation
Learning [114.58986229852489]
本稿では,空間的,シーケンシャル,時間的観点から,シーケンスの基本的および汎用的な監視について検討する。
私たちはContrastive Learning(SeCo)という特定の形式を導き出します。
SeCoは、アクション認識、未トリムアクティビティ認識、オブジェクト追跡に関する線形プロトコルにおいて、優れた結果を示す。
論文 参考訳(メタデータ) (2020-08-03T15:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。