Fugu-MT 論文翻訳(概要): D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models

論文の概要: D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models

arxiv url: http://arxiv.org/abs/2605.19690v1
Date: Tue, 19 May 2026 11:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.298978
Title: D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models
Title（参考訳）: D-Cling:航法基礎モデルのための事前保存深度調整
Authors: Shintaro Nakaoka, Takayuki Kanai, Kazuhito Tanaka,
Abstract要約: ナビゲーション基礎モデル(NFM)は、様々なシナリオにおいて強力な一般化可能性を示している。 NFMのドメイン内ファインチューニングの採用は、ビジュモータポリシーを効果的に校正し、新規シナリオにおいてもさらなる改善を約束する。本稿では,大規模な事前学習を活用しながら,新しいセットアップを効率的に学習するファインチューニング手法を提案する。
参考スコア（独自算出の注目度）: 0.9831489366502301
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Navigation Foundation Models (NFMs) trained on large cross-embodied datasets have demonstrated powerful generalizability in various scenarios. Adopting in-domain fine-tuning for an NFM efficiently calibrates the visuomotor policy, promising further improvement even in a novel scenario. However, the fine-tuned models still suffer from poor obstacle avoidance or fail to properly reach the provided goals. Furthermore, model updates using a small subset of data typically erode the pre-trained prior, compromising the pre-training generalization. Consequently, fine-tuning deteriorates the capability of the model for robust and accurate navigation. In this work, we present a novel fine-tuning method that leverages large-scale pre-training while efficiently learning in novel setups, such as environments or camera configurations. In particular, inspired by ControlNet, we fine-tune an NFM by attaching a trainable copy of the pre-trained backbone using zero-initialized residual pathways, thereby learning geometric cues. This design enables the model to efficiently acquire in-domain geometry while preserving pre-trained knowledge across various behaviors. Despite its simplicity, our comprehensive evaluation of real-world navigation suggests that our proposal effectively enables robust long-horizon navigation with minimal collisions and human intervention. Additionally, our offline analysis shows that the proposed method maintains or further improves action prediction capabilities beyond the fine-tuned dataset, providing a key insight into continual learning for general navigation. The project page: https://toyotafrc.github.io/DCLING-Proj/
Abstract（参考訳）: ナビゲーション基礎モデル(NFM)は、様々なシナリオにおいて強力な一般化可能性を示している。 NFMのドメイン内ファインチューニングの採用は、ビジュモータポリシーを効果的に校正し、新規シナリオにおいてもさらなる改善を約束する。しかし、微調整されたモデルは依然として障害回避に苦しんだり、与えられた目標に適切に到達できなかったりしている。さらに、データの小さなサブセットを使用したモデル更新は、通常、事前訓練された事前訓練を省き、事前訓練された一般化を妥協する。その結果、微調整により、堅牢で正確なナビゲーションのためのモデルの能力は低下する。本研究では,環境やカメラの設定といった新しい設定において,大規模事前学習を効果的に学習しながら,大規模な事前学習を活用するファインチューニング手法を提案する。特に、ControlNetにインスパイアされた私たちは、ゼロ初期化残留経路を使用してトレーニング済みのバックボーンのトレーニング可能なコピーをアタッチすることで、NFMを微調整し、幾何学的手がかりを学ぶ。この設計により、モデルは、様々な行動にまたがる事前学習された知識を保持しながら、ドメイン内の幾何学を効率的に取得できる。その単純さにもかかわらず、実世界のナビゲーションを包括的に評価した結果、我々の提案は、衝突を最小限に抑え、人間の介入を最小限にすることで、堅牢な長距離ナビゲーションを効果的に実現できることが示唆された。さらにオフライン解析により,提案手法は,微調整データセット以上の動作予測能力を維持あるいは改善し,汎用ナビゲーションのための連続学習に関する重要な知見を提供する。プロジェクトページ: https://toyotafrc.github.io/DCING-Proj/

論文の概要: D-CLING: Prior-Preserving Depth-Conditioned Fine-Tuning for Navigation Foundation Models

関連論文リスト