論文の概要: Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception
- arxiv url: http://arxiv.org/abs/2602.23069v1
- Date: Thu, 26 Feb 2026 14:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.731419
- Title: Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception
- Title(参考訳): Align then Adapt: 4次元知覚におけるパラメータ効率の良い伝達学習の再考
- Authors: Yiding Sun, Jihua Zhu, Haozhe Cheng, Chaoyi Lu, Zhichuan Yang, Lin Chen, Yaonan Wang,
- Abstract要約: 動きとシーンのインタラクションを正確にエンコードするので、ポイントクラウドビデオの理解はロボティクスにとって重要である。
そこで我々は,パラメータ効率の変換学習を2段階に分割する新しい"Align then Adapt"(PointATA)パラダイムを開発した。
PointATAは、強力なフルチューニングモデルにマッチし、さらに性能も向上できることを示す。
- 参考スコア(独自算出の注目度): 44.7850628565891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point cloud video understanding is critical for robotics as it accurately encodes motion and scene interaction. We recognize that 4D datasets are far scarcer than 3D ones, which hampers the scalability of self-supervised 4D models. A promising alternative is to transfer 3D pre-trained models to 4D perception tasks. However, rigorous empirical analysis reveals two critical limitations that impede transfer capability: overfitting and the modality gap. To overcome these challenges, we develop a novel "Align then Adapt" (PointATA) paradigm that decomposes parameter-efficient transfer learning into two sequential stages. Optimal-transport theory is employed to quantify the distributional discrepancy between 3D and 4D datasets, enabling our proposed point align embedder to be trained in Stage 1 to alleviate the underlying modality gap. To mitigate overfitting, an efficient point-video adapter and a spatial-context encoder are integrated into the frozen 3D backbone to enhance temporal modeling capacity in Stage 2. Notably, with the above engineering-oriented designs, PointATA enables a pre-trained 3D model without temporal knowledge to reason about dynamic video content at a smaller parameter cost compared to previous work. Extensive experiments show that PointATA can match or even outperform strong full fine-tuning models, whilst enjoying the advantage of parameter efficiency, e.g. 97.21 \% accuracy on 3D action recognition, $+8.7 \%$ on 4 D action segmentation, and 84.06\% on 4D semantic segmentation.
- Abstract(参考訳): 動きとシーンのインタラクションを正確にエンコードするので、ポイントクラウドビデオの理解はロボティクスにとって重要である。
我々は、4Dデータセットが3Dデータセットよりもはるかに少ないことを認識しており、自己教師付き4Dモデルのスケーラビリティを損なう。
有望な代替手段は、3D事前訓練されたモデルを4D知覚タスクに転送することである。
しかし、厳密な経験分析により、過度な適合とモダリティギャップという、伝達能力を阻害する2つの重要な限界が明らかになった。
これらの課題を克服するために、パラメータ効率の変換学習を2段階に分解する新しい"Align then Adapt"(PointATA)パラダイムを開発した。
最適輸送理論を用いて3次元と4次元のデータセット間の分布差を定量化し,提案した点整合埋め込みをステージ1でトレーニングし,その基礎となるモダリティギャップを緩和する。
オーバーフィッティングを緩和するため、効率的なポイントビデオアダプタと空間コンテキストエンコーダを冷凍した3Dバックボーンに統合し、ステージ2における時間的モデリング能力を高める。
上記のエンジニアリング指向の設計により、PointATAは、時間的知識のない事前学習された3Dモデルで、動的ビデオコンテンツについて以前の作業と比べてより少ないパラメータコストで推論することができる。
大規模な実験により、PointATAは強力なフル微調整モデルに適合し、パラメータ効率の利点を享受しながら、3Dアクション認識における精度97.21 %、4Dアクションセグメンテーションにおける$+8.7 %、および4Dセグメンテーションにおける84.06 %を達成できることが示された。
関連論文リスト
- SWiT-4D: Sliding-Window Transformer for Lossless and Parameter-Free Temporal 4D Generation [30.72482055095692]
SWiT-4Dは、損失のないパラメータフリーの時間的4Dメッシュ生成のためのスライディング・ウィンドウ変換器である。
SWiT-4D は任意の Diffusion Transformer (DiT) ベースの Image-to-3D ジェネレータとシームレスに統合される。
高忠実度幾何と安定した時間的整合性を実現し、非常に限られた4D監視下での実用的展開可能性を示す。
論文 参考訳(メタデータ) (2025-12-11T17:54:31Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。