論文の概要: Knowledge-Preserved Model Tuning in Null-Space for Robust Spatio-Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2606.03539v1
- Date: Tue, 02 Jun 2026 11:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.982652
- Title: Knowledge-Preserved Model Tuning in Null-Space for Robust Spatio-Temporal Video Grounding
- Title(参考訳): ロバストな時空間ビデオグラウンディングのためのNull空間における知識保存モデルチューニング
- Authors: Haoxuan Chen, Xianqin Liu, Jian-Fang Hu,
- Abstract要約: 劣化した入力に対応するためにNull-Space Tuningを提案する。
このフレームワークは、層入力に凍結重みのヌル空間内にベクトルを追加することは出力に影響しないという幾何学的性質を利用する。
学習可能な残基を入力特徴に注入し、事前訓練されたバックボーンに選択的に見えないようにする。
- 参考スコア(独自算出の注目度): 15.233986266036936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-Temporal Video Grounding aims to localize object tubes based on textual queries. While recent methods have achieved remarkable success, they mainly focus on high-quality(HQ) inputs, neglecting the widespread presence of low-quality(LQ) videos in real-world scenarios. Although tuning methods like LoRA can adapt to degraded inputs, they inevitably disrupt pre-trained knowledge. To address this, we propose Null-Space Tuning (NST). This framework exploits the geometric property that adding vectors within the null-space of frozen weights to the layer input does not affect the output. Leveraging this, NST injects learnable residuals into input features that can be selectively invisible to the pre-trained backbone. Specifically, NST combines the Quality-Adaptive Unit and Dual-Space Reparameterization to synthesize these residuals by confining components for HQ inputs to the null-space, while directing restoration components for LQ inputs to the non-null space. As the frozen weights eliminate null-space components, we effectively rectify degraded inputs while preserving pre-trained knowledge for HQ inputs. Extensive experiments show that NST outperforms state-of-the-art methods on our Mixed-Quality benchmark.
- Abstract(参考訳): Spatio-Temporal Video Groundingは、テキストクエリに基づいてオブジェクトチューブをローカライズすることを目的としている。
最近の手法は目覚ましい成功を収めているが、それらは主に高品質(HQ)のインプットに焦点を当てており、現実のシナリオにおける低品質(LQ)ビデオの存在を無視している。
LoRAのようなチューニング手法は劣化した入力に適応できるが、必然的に事前学習された知識を妨害する。
そこで我々はNull-Space Tuning (NST)を提案する。
このフレームワークは、層入力に凍結重みのヌル空間内にベクトルを追加することは出力に影響しないという幾何学的性質を利用する。
これを利用すると、NSTは学習可能な残基を入力特徴に注入し、事前訓練されたバックボーンに選択的に見えないようにする。
具体的には、NSTはQuality-Adaptive UnitとDual-Space Reparameterizationを組み合わせて、HQ入力のコンポーネントをnull空間に収束させ、LQ入力の復元コンポーネントを非null空間に誘導することで、これらの残余を合成する。
凍結重みはヌル空間成分を除去するので、HQ入力のための事前学習された知識を保持しながら、劣化した入力を効果的に修正する。
大規模な実験により、NSTはMixed-Qualityベンチマークで最先端の手法より優れていることが示された。
関連論文リスト
- nASR: An End-to-End Trainable Neural Layer for Channel-Level EEG Artifact Subspace Reconstruction in Real-Time BCI [0.0]
アーティファクトサブスペース再構成(Artifact Subspace Reconstruction, ASR)は、EEGベースのBCIアプリケーションにおいて最も広く使われているアーティファクトフィルタリング手法の1つである。
我々は,アーティファクトの拒絶と下流の復号化を共同で最適化する,新しいエンドツーエンドのトレーニング可能なKeras層であるnASRを提案する。
論文 参考訳(メタデータ) (2026-05-14T15:15:57Z) - Robust and Label-Efficient Deep Waste Detection [29.019461511410515]
効率的な廃棄物のソートは持続可能なリサイクルには不可欠だが、この領域でのAI研究は商用システムに遅れを取っている。
本研究では,強力なベースラインを確立し,アンサンブルに基づく半教師付き学習フレームワークを導入することにより,AI駆動型廃棄物検出を推し進める。
論文 参考訳(メタデータ) (2025-08-26T08:34:04Z) - PEEL the Layers and Find Yourself: Revisiting Inference-time Data Leakage for Residual Neural Networks [64.90981115460937]
本稿では、ディープニューラルネットワーク(NN)の推論時データ漏洩リスクについて検討する。
残差NNの中間出力からブロックワイズ入力特徴を効果的に回収できる新しい後方特徴逆変換法である textbfPEEL を提案する。
その結果,平均二乗誤差 (MSE) で評価した場合,PEEL は最先端の回収方法よりも桁違いに優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-08T20:11:05Z) - Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning [49.91297276176978]
我々は,ポイントクラウドのための新しい固有textbfPointGST (textbfGraph textbfSpectral textbfTuning) 法を提案する。
ポイントGSTは事前訓練されたモデルを凍結し、スペクトル領域の微調整パラメータのための軽量で訓練可能なポイントクラウドスペクトルアダプタ(PCSA)を導入する。
さまざまなタスクにわたる挑戦的なポイントクラウドデータセットの実験では、ポイントGSTが完全に微調整されたデータセットを上回るだけでなく、トレーニング可能なパラメータも大幅に削減されていることが示されている。
論文 参考訳(メタデータ) (2024-10-10T17:00:04Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Approximate Nullspace Augmented Finetuning for Robust Vision Transformers [12.49522180305377]
線形代数からのヌル空間の概念にインスパイアされた視覚変換器の堅牢性を高める。
我々の微調整アプローチは、逆方向と自然方向の両方の摂動に対するモデルの堅牢性を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-15T17:07:39Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Harnessing Low-Frequency Neural Fields for Few-Shot View Synthesis [82.31272171857623]
オーバフィッティングから高周波数のニューラルフィールドを規則化するために、低周波ニューラルフィールドを利用する。
数発の入力に過度に適合しないよう、周波数を調整するための簡単なyet- Effective戦略を提案する。
論文 参考訳(メタデータ) (2023-03-15T05:15:21Z) - Non-Local Part-Aware Point Cloud Denoising [55.50360085086123]
本稿では,点群を識別する非局所部分認識ディープニューラルネットワークを提案する。
グラフアテンションモジュールでカスタマイズした非局所学習ユニット(NLU)を設計し、非局所意味論的特徴を適応的にキャプチャする。
雑音発生性能を向上させるため,ノイズ特性をノイズ入力から段階的に抽出するために,一連のNLUをカスケードする。
論文 参考訳(メタデータ) (2020-03-14T13:51:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。