論文の概要: Optimizing Multi-Modal Trackers via Sensitivity-aware Regularized Tuning
- arxiv url: http://arxiv.org/abs/2508.17488v1
- Date: Sun, 24 Aug 2025 18:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.550523
- Title: Optimizing Multi-Modal Trackers via Sensitivity-aware Regularized Tuning
- Title(参考訳): 感性を考慮した正規化チューニングによるマルチモーダルトラッカーの最適化
- Authors: Zhiwen Chen, Jinjian Wu, Zhiyu Zhu, Yifan Zhang, Guangming Shi, Junhui Hou,
- Abstract要約: 本稿では,RGBデータに対する事前学習モデルを効果的に適用することにより,マルチモーダルトラッカーの最適化に挑戦する。
既存の微調整パラダイムは過度な自由と過剰な制限の間に振動し、最適の可塑性-安定性のトレードオフをもたらす。
そこで本研究では,本質的なパラメータ感を取り入れて学習プロセスを微妙に洗練する,感性に配慮した規則化チューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 112.12667472919723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper tackles the critical challenge of optimizing multi-modal trackers by effectively adapting the pre-trained models for RGB data. Existing fine-tuning paradigms oscillate between excessive freedom and over-restriction, both leading to a suboptimal plasticity-stability trade-off. To mitigate this dilemma, we propose a novel sensitivity-aware regularized tuning framework, which delicately refines the learning process by incorporating intrinsic parameter sensitivities. Through a comprehensive investigation from pre-trained to multi-modal contexts, we identify that parameters sensitive to pivotal foundational patterns and cross-domain shifts are primary drivers of this issue. Specifically, we first analyze the tangent space of pre-trained weights to measure and orient prior sensitivities, dedicated to preserving generalization. Then, we further explore transfer sensitivities during the tuning phase, emphasizing adaptability and stability. By incorporating these sensitivities as regularization terms, our method significantly enhances the transferability across modalities. Extensive experiments showcase the superior performance of the proposed method, surpassing current state-of-the-art techniques across various multi-modal tracking. The source code and models will be publicly available at https://github.com/zhiwen-xdu/SRTrack.
- Abstract(参考訳): 本稿では,RGBデータに対する事前学習モデルを効果的に適応させることにより,マルチモーダルトラッカーを最適化する上での課題に対処する。
既存の微調整パラダイムは過度な自由と過剰な制限の間に振動し、どちらも最適の塑性-安定性のトレードオフにつながる。
このジレンマを緩和するために,本研究では,本質的なパラメータ感を取り入れて学習プロセスを微妙に洗練する,感性に配慮した規則化チューニングフレームワークを提案する。
事前学習からマルチモーダル・コンテクストへの包括的調査を通じて、この問題の主要因は、中心的な基礎パターンやドメイン間シフトに敏感なパラメータであることが分かった。
具体的には、まず、事前学習した重みの接空間を解析し、一般化の保存に特化した事前感度を測り、オリエントする。
さらに, 調整段階における伝達感度について検討し, 適応性と安定性を強調した。
これらの感度を正規化項として組み込むことにより,モーダル性間の伝達可能性を大幅に向上させる。
広範囲な実験により提案手法の優れた性能を示し, 各種マルチモーダルトラッキングにおける最先端技術を上回った。
ソースコードとモデルはhttps://github.com/zhiwen-xdu/SRTrack.comで公開されている。
関連論文リスト
- TRACE: A Generalizable Drift Detector for Streaming Data-Driven Optimization [18.46974867492826]
多くの最適化タスクには、未知の概念ドリフトによるストリーミングデータが含まれており、Streaming Data-Driven Optimization (SDDO)として大きな課題となっている。
本稿では,Transferable Concept-drift Estimatorを提案する。Transferable Concept-drift Estimatorは,時間スケールの異なるストリーミングデータの分布変化を効果的に検出する。
多様なベンチマークに関する総合的な実験結果は、SDDOシナリオにおける我々のアプローチの優れた一般化、堅牢性、有効性を示している。
論文 参考訳(メタデータ) (2025-12-08T01:33:16Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - RAMCT: Novel Region-adaptive Multi-channel Tracker with Iterative Tikhonov Regularization for Thermal Infrared Tracking [10.58716694795395]
本稿では,領域適応型スパース相関フィルタトラッカーであるRAMCTを提案する。
マルチチャネル機能オプティマイゼーションと適応正規化戦略を統合している。
精度とロバスト性という点で他の最先端トラッカーよりも優れています。
論文 参考訳(メタデータ) (2025-04-19T12:18:36Z) - UP-dROM : Uncertainty-Aware and Parametrised dynamic Reduced-Order Model, application to unsteady flows [27.50487430169627]
還元次数モデル(ROM)は、低コストな予測を提供することによって流体力学において重要な役割を果たす。
ROMが広く適用されるためには、異なる体制にまたがってうまく一般化するだけでなく、その予測に対する信頼度も測らなければならない。
過渡流に特化して設計された非線形還元戦略を提案する。
論文 参考訳(メタデータ) (2025-03-29T22:17:36Z) - Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation [0.0]
拡散に基づくモデルは、現実的な交通シナリオを生成するために現実世界の運転データを使用することの有効性が認識されている。
これらのモデルは、特定のトラフィック嗜好を取り入れ、シナリオリアリズムを強化するためにガイド付きサンプリングを採用している。
本稿では,新しいトレーニング戦略を利用して,交通前兆に密着した多誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-14T05:29:43Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking [1.8843687952462744]
M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。
メタフレームワークに基づいて、複数のフレキシブルなプロンプト戦略を用いて、事前訓練されたモデルを適用し、ユニモーダルパターンの包括的探索を行う。
論文 参考訳(メタデータ) (2024-03-27T02:06:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - An automatic differentiation system for the age of differential privacy [65.35244647521989]
Tritiumは、微分プライベート(DP)機械学習(ML)のための自動微分ベース感度分析フレームワークである
我々は、微分プライベート(DP)機械学習(ML)のための自動微分に基づく感度分析フレームワークTritiumを紹介する。
論文 参考訳(メタデータ) (2021-09-22T08:07:42Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。