論文の概要: Self-Improving 4D Perception via Self-Distillation
- arxiv url: http://arxiv.org/abs/2604.08532v1
- Date: Thu, 09 Apr 2026 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.070508
- Title: Self-Improving 4D Perception via Self-Distillation
- Title(参考訳): 自己蒸留による4次元知覚の自己改善
- Authors: Nan Huang, Pengcheng Yu, Weijia Zeng, James M. Rehg, Angjoo Kanazawa, Haiwen Feng, Qianqian Wang,
- Abstract要約: SelfEvoは、非現実的なビデオを使用して、トレーニング済みのマルチビュー再構築を継続的に改善するセルフトレーニングフレームワークである。
我々は、損失信号、非対称性の形態、その他の訓練戦略を含む自己改善を効果的に行う設計選択を体系的に研究する。
全体として、SelfEvoはラベル付きデータを使わずに36.5%の動画深度推定と20.1%のカメラ推定を達成している。
- 参考スコア(独自算出の注目度): 49.729154812786696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale multi-view reconstruction models have made remarkable progress, but most existing approaches still rely on fully supervised training with ground-truth 3D/4D annotations. Such annotations are expensive and particularly scarce for dynamic scenes, limiting scalability. We propose SelfEvo, a self-improving framework that continually improves pretrained multi-view reconstruction models using unlabeled videos. SelfEvo introduces a self-distillation scheme using spatiotemporal context asymmetry, enabling self-improvement for learning-based 4D perception without external annotations. We systematically study design choices that make self-improvement effective, including loss signals, forms of asymmetry, and other training strategies. Across eight benchmarks spanning diverse datasets and domains, SelfEvo consistently improves pretrained baselines and generalizes across base models (e.g. VGGT and $π^3$), with significant gains on dynamic scenes. Overall, SelfEvo achieves up to 36.5% relative improvement in video depth estimation and 20.1% in camera estimation, without using any labeled data. Project Page: https://self-evo.github.io/.
- Abstract(参考訳): 大規模なマルチビュー再構築モデルは目覚ましい進歩を遂げているが、既存のアプローチの多くは、地上の3D/4Dアノテーションによる完全に教師付きトレーニングに依存している。
このようなアノテーションは高価で、特に動的なシーンでは不十分で、スケーラビリティが制限されます。
ラベルなしビデオを用いた事前学習型マルチビュー再構成モデルの改善を継続的に行う自己改善フレームワークであるSelfEvoを提案する。
SelfEvoは時空間非対称性を用いた自己蒸留方式を導入し、外部アノテーションを使わずに学習に基づく4D知覚の自己改善を可能にする。
我々は、損失信号、非対称性の形態、その他の訓練戦略を含む自己改善を効果的に行う設計選択を体系的に研究する。
多様なデータセットやドメインにまたがる8つのベンチマークで、SelfEvoはトレーニング済みのベースラインを一貫して改善し、ベースモデル(例えばVGGTや$π^3$)をまたいで一般化し、ダイナミックなシーンに大きな利益をもたらす。
全体として、SelfEvoはラベル付きデータを使わずに36.5%の動画深度推定と20.1%のカメラ推定を達成している。
プロジェクトページ: https://self-evo.github.io/.com
関連論文リスト
- IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance [35.90972175891154]
多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスに平坦化し、正確な操作に必要な2D空間キューを弱める。
我々は,モデルに組み込まれた視覚で既に利用可能な親和性ヒントを活用することにより,空間的理解を改善する軽量なトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:57:13Z) - Developing Vision-Language-Action Model from Egocentric Videos [14.1517430035289]
エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
このようなビデオを利用してロボットのポリシーを訓練する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
本研究では,エゴセントリックビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-09-26T07:09:33Z) - Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views [58.45662356692379]
本稿では,まず2つの分離点雲/ビューを生成し,一方を他方から再構成する相互再構成生成パラダイムであるPoint-PQAEを提案する。
クロスコンストラクションは, 自己再構成と比較して, 事前学習の難易度を著しく高め, 3次元自己教師型学習において従来の単一モーダル自己再構成法を超越することができる。
論文 参考訳(メタデータ) (2025-09-01T08:42:17Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。
EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。
固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.41337525728398]
EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。