論文の概要: Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
- arxiv url: http://arxiv.org/abs/2510.02268v1
- Date: Thu, 02 Oct 2025 17:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.29582
- Title: Do You Know Where Your Camera Is? View-Invariant Policy Learning with Camera Conditioning
- Title(参考訳): カメラがどこにあるか知っていますか? カメラコンディショニングによる視点不変のポリシー学習
- Authors: Tianchong Jiang, Jingtian Ji, Xiangshan Tan, Jiading Fang, Anand Bhattad, Vitor Guizilini, Matthew R. Walter,
- Abstract要約: 本研究では、カメラ外在物に明示的に条件付けすることで、ビュー不変の模倣学習について検討する。
本研究では,外在的条件付けが標準行動クローニングポリシーの観点における一般化を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 22.045823914539408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study view-invariant imitation learning by explicitly conditioning policies on camera extrinsics. Using Plucker embeddings of per-pixel rays, we show that conditioning on extrinsics significantly improves generalization across viewpoints for standard behavior cloning policies, including ACT, Diffusion Policy, and SmolVLA. To evaluate policy robustness under realistic viewpoint shifts, we introduce six manipulation tasks in RoboSuite and ManiSkill that pair "fixed" and "randomized" scene variants, decoupling background cues from camera pose. Our analysis reveals that policies without extrinsics often infer camera pose using visual cues from static backgrounds in fixed scenes; this shortcut collapses when workspace geometry or camera placement shifts. Conditioning on extrinsics restores performance and yields robust RGB-only control without depth. We release the tasks, demonstrations, and code at https://ripl.github.io/know_your_camera/ .
- Abstract(参考訳): 本研究では、カメラ外在物に明示的に条件付けすることで、ビュー不変の模倣学習について検討する。
画素ごとのPlucker埋め込みを用いて, 外部への条件付けにより, ACT, Diffusion Policy, SmolVLAなどの標準行動クローニングポリシーの観点での一般化が著しく向上することを示す。
現実的な視点シフト下での政策ロバスト性を評価するために,RoboSuiteとManiSkillの6つの操作タスクを紹介した。
このショートカットは、ワークスペースの幾何学やカメラ配置のシフトによって崩壊する。
外部制御の条件付けは性能を回復し、RGBのみの堅牢な制御を奥行きなく得る。
タスク、デモ、コードをhttps://ripl.github.io/know_your_camera/でリリースします。
関連論文リスト
- ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - The Treachery of Images: Bayesian Scene Keypoints for Deep Policy
Learning in Robotic Manipulation [28.30126109684119]
スケール不変なキーポイントを時間とともに追跡するベイズ的手法であるBASKを提案する。
我々は,手首カメラの観察から多目的ロボット操作の課題を学習するために,本手法を用いた。
論文 参考訳(メタデータ) (2023-05-08T14:05:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Wide-Baseline Multi-Camera Calibration using Person Re-Identification [27.965850489928457]
本稿では,大規模広ベースシナリオのためのカメラネットワークの3次元ポーズ推定の問題に対処する。
現場の人々を「キーポイント」として扱い、異なるカメラビューに関連付けることは、対応を得るための代替方法である。
本手法ではまず,カメラ間で人間境界ボックスを関連付ける再ID法を用い,境界ボックス対応を点対応に変換する。
論文 参考訳(メタデータ) (2021-04-17T15:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。