論文の概要: DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning
- arxiv url: http://arxiv.org/abs/2509.17684v1
- Date: Mon, 22 Sep 2025 12:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.370988
- Title: DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning
- Title(参考訳): DINOv3-Diffusion Policy: Visuomotor Diffusion Policy Learningのための自己監督型大規模視覚モデル
- Authors: ThankGod Egbe, Peng Wang, Zhihao Guo, Zidong Chen,
- Abstract要約: 本研究は, 自己制御型エンコーダが従来型のイメージネット型バックボーンに適合するか, 越えられるかを検討する。
微調整されたDINOv3がいくつかのタスクでResNet-18にマッチするか、超えていることがわかった。
ResNet18をバックボーンとして使用するのと比較して、DINOv3に対する我々のアプローチは、テストタイムの成功率を10%まで向上させる。
- 参考スコア(独自算出の注目度): 4.9400495816263765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates DINOv3, a recent large-scale self-supervised vision backbone, for visuomotor diffusion policy learning in robotic manipulation. We investigate whether a purely self-supervised encoder can match or surpass conventional supervised ImageNet-pretrained backbones (e.g., ResNet-18) under three regimes: training from scratch, frozen, and finetuned. Across four benchmark tasks (Push-T, Lift, Can, Square) using a unified FiLM-conditioned diffusion policy, we find that (i) finetuned DINOv3 matches or exceeds ResNet-18 on several tasks, (ii) frozen DINOv3 remains competitive, indicating strong transferable priors, and (iii) self-supervised features improve sample efficiency and robustness. These results support self-supervised large visual models as effective, generalizable perceptual front-ends for action diffusion policies, motivating further exploration of scalable label-free pretraining in robotic manipulation. Compared to using ResNet18 as a backbone, our approach with DINOv3 achieves up to a 10% absolute increase in test-time success rates on challenging tasks such as Can, and on-the-par performance in tasks like Lift, PushT, and Square.
- Abstract(参考訳): 本稿では,ロボット操作における視覚拡散政策学習のための大規模自己監督型視覚バックボーンであるDINOv3について検討する。
本研究は, 自己監督型エンコーダが従来型のイメージネット事前学習バックボーン(例: ResNet-18)を, スクラッチからのトレーニング, 凍結, 微調整の3つの条件下で適合するか, あるいは超過できるかを検討する。
統一的なFiLM条件拡散ポリシを用いた4つのベンチマークタスク(Push-T, Lift, Can, Square)で、そのことが分かる。
i) 微調整されたDINOv3は、いくつかのタスクでResNet-18にマッチするか、超える。
(ii)凍結したDINOv3は競争力を維持しており、強い転送性前駆体を示し、
三 自己監督機能により、試料効率及び堅牢性が向上する。
これらの結果は、ロボット操作におけるスケーラブルなラベルなし事前学習のさらなる探求を動機とする、行動拡散政策のための効果的で一般化可能な知覚的フロントエンドとして、自己監督型の大規模視覚モデルをサポートする。
バックボーンとしてResNet18を使用するのに比べ、DINOv3のアプローチは、Canのような課題タスクにおけるテストタイムの成功率を最大10%向上させ、Lift、PushT、Squareといったタスクにおけるオンザパーパフォーマンスを実現しています。
関連論文リスト
- Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward [85.84943447589511]
本稿では,高次元連続行動系列を生成するための新しいRLフレームワークであるAC3(Actor-Critic for Continuous Chunks)を紹介する。
この学習プロセスを安定させ、データ効率を高めるため、AC3はアクターと批評家の両方に目標安定化機構を組み込む。
論文 参考訳(メタデータ) (2025-08-15T01:27:15Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor [9.54964908165465]
本稿では,3Dポイントクラウド環境におけるFew-Shot連続インクリメンタルラーニング問題に対処する新しい手法を提案する。
私たちは、ポイントクラウドデータに基づいて広範囲にトレーニングされた基礎的な3Dモデルを活用します。
このアプローチでは、二重キャッシュシステムを使用します。まず、モデルの予測にどれだけ自信があるかに基づいて、以前のテストサンプルを使用し、次に、オーバーフィッティングを防ぐために、少数の新しいタスクサンプルを含んでいます。
論文 参考訳(メタデータ) (2024-10-11T20:23:00Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation [25.47207030637466]
一般的な視覚学習タスクで事前訓練された大規模なモデルは、幅広い特殊認識問題に対して有用な表現を提供することができる。
古典的な微調整のこの欠点に対処するために、"ロスレス適応"を導入する。
パラメータ効率の良いアダプタの適切な配置は、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-04-13T15:06:28Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。