論文の概要: D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models
- arxiv url: http://arxiv.org/abs/2605.19690v1
- Date: Tue, 19 May 2026 11:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.298978
- Title: D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models
- Title(参考訳): D-Cling:航法基礎モデルのための事前保存深度調整
- Authors: Shintaro Nakaoka, Takayuki Kanai, Kazuhito Tanaka,
- Abstract要約: ナビゲーション基礎モデル(NFM)は、様々なシナリオにおいて強力な一般化可能性を示している。
NFMのドメイン内ファインチューニングの採用は、ビジュモータポリシーを効果的に校正し、新規シナリオにおいてもさらなる改善を約束する。
本稿では,大規模な事前学習を活用しながら,新しいセットアップを効率的に学習するファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Navigation Foundation Models (NFMs) trained on large cross-embodied datasets have demonstrated powerful generalizability in various scenarios. Adopting in-domain fine-tuning for an NFM efficiently calibrates the visuomotor policy, promising further improvement even in a novel scenario. However, the fine-tuned models still suffer from poor obstacle avoidance or fail to properly reach the provided goals. Furthermore, model updates using a small subset of data typically erode the pre-trained prior, compromising the pre-training generalization. Consequently, fine-tuning deteriorates the capability of the model for robust and accurate navigation. In this work, we present a novel fine-tuning method that leverages large-scale pre-training while efficiently learning in novel setups, such as environments or camera configurations. In particular, inspired by ControlNet, we fine-tune an NFM by attaching a trainable copy of the pre-trained backbone using zero-initialized residual pathways, thereby learning geometric cues. This design enables the model to efficiently acquire in-domain geometry while preserving pre-trained knowledge across various behaviors. Despite its simplicity, our comprehensive evaluation of real-world navigation suggests that our proposal effectively enables robust long-horizon navigation with minimal collisions and human intervention. Additionally, our offline analysis shows that the proposed method maintains or further improves action prediction capabilities beyond the fine-tuned dataset, providing a key insight into continual learning for general navigation. The project page: https://toyotafrc.github.io/DCLING-Proj/
- Abstract(参考訳): ナビゲーション基礎モデル(NFM)は、様々なシナリオにおいて強力な一般化可能性を示している。
NFMのドメイン内ファインチューニングの採用は、ビジュモータポリシーを効果的に校正し、新規シナリオにおいてもさらなる改善を約束する。
しかし、微調整されたモデルは依然として障害回避に苦しんだり、与えられた目標に適切に到達できなかったりしている。
さらに、データの小さなサブセットを使用したモデル更新は、通常、事前訓練された事前訓練を省き、事前訓練された一般化を妥協する。
その結果、微調整により、堅牢で正確なナビゲーションのためのモデルの能力は低下する。
本研究では,環境やカメラの設定といった新しい設定において,大規模事前学習を効果的に学習しながら,大規模な事前学習を活用するファインチューニング手法を提案する。
特に、ControlNetにインスパイアされた私たちは、ゼロ初期化残留経路を使用してトレーニング済みのバックボーンのトレーニング可能なコピーをアタッチすることで、NFMを微調整し、幾何学的手がかりを学ぶ。
この設計により、モデルは、様々な行動にまたがる事前学習された知識を保持しながら、ドメイン内の幾何学を効率的に取得できる。
その単純さにもかかわらず、実世界のナビゲーションを包括的に評価した結果、我々の提案は、衝突を最小限に抑え、人間の介入を最小限にすることで、堅牢な長距離ナビゲーションを効果的に実現できることが示唆された。
さらにオフライン解析により,提案手法は,微調整データセット以上の動作予測能力を維持あるいは改善し,汎用ナビゲーションのための連続学習に関する重要な知見を提供する。
プロジェクトページ: https://toyotafrc.github.io/DCING-Proj/
関連論文リスト
- CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training [48.70704477452434]
textbfCapTrackは,大規模言語モデルにおける忘れを解析する機能中心のフレームワークである。
我々は、ポストトレーニングアルゴリズム、ドメイン、モデルファミリーにまたがる大規模な実証的研究を行う。
私たちは、忘れることがパラメトリックな知識を超えて、頑健さとデフォルトの振る舞いに顕著なドリフトがあることに気付きました。
論文 参考訳(メタデータ) (2026-02-19T09:46:24Z) - Parameter Importance-Driven Continual Learning for Foundation Models [5.471848114633189]
ドメイン固有のポストトレーニングは、しばしば破滅的な忘れ込みを引き起こし、基礎モデルが一般的な推論能力を失う。
PIECEは,ドメイン知識を効率的に学習しながら,汎用性を保った重要度推定に基づく継続性向上手法である。
我々の結果は、破滅的な忘れをすることなく、スケーラブルでドメイン順応的な基礎モデルへの実践的な道のりを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-11-19T12:07:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。