論文の概要: Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification
- arxiv url: http://arxiv.org/abs/2512.20892v1
- Date: Wed, 24 Dec 2025 02:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.654523
- Title: Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification
- Title(参考訳): Beyond Weight Adaptation: クロスモーダル船の再識別のための機能空間ドメイン注入
- Authors: Tingfeng Xian, Wenlve Zhou, Zhiheng Zhou, Zhelin Li,
- Abstract要約: CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
- 参考スコア(独自算出の注目度): 3.6907522136316975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Modality Ship Re-Identification (CMS Re-ID) is critical for achieving all-day and all-weather maritime target tracking, yet it is fundamentally challenged by significant modality discrepancies. Mainstream solutions typically rely on explicit modality alignment strategies; however, this paradigm heavily depends on constructing large-scale paired datasets for pre-training. To address this, grounded in the Platonic Representation Hypothesis, we explore the potential of Vision Foundation Models (VFMs) in bridging modality gaps. Recognizing the suboptimal performance of existing generic Parameter-Efficient Fine-Tuning (PEFT) methods that operate within the weight space, particularly on limited-capacity models, we shift the optimization perspective to the feature space and propose a novel PEFT strategy termed Domain Representation Injection (DRI). Specifically, while keeping the VFM fully frozen to maximize the preservation of general knowledge, we design a lightweight, learnable Offset Encoder to extract domain-specific representations rich in modality and identity attributes from raw inputs. Guided by the contextual information of intermediate features at different layers, a Modulator adaptively transforms these representations. Subsequently, they are injected into the intermediate layers via additive fusion, dynamically reshaping the feature distribution to adapt to the downstream task without altering the VFM's pre-trained weights. Extensive experimental results demonstrate the superiority of our method, achieving State-of-the-Art (SOTA) performance with minimal trainable parameters. For instance, on the HOSS-ReID dataset, we attain 57.9\% and 60.5\% mAP using only 1.54M and 7.05M parameters, respectively. The code is available at https://github.com/TingfengXian/DRI.
- Abstract(参考訳): CMS Re-ID(Cross-Modality Ship Re-Identification, CMS Re-ID)は、全日中全天候の海上目標追跡を実現するために重要である。
主流のソリューションは通常、明示的なモダリティアライメント戦略に頼っているが、このパラダイムは事前トレーニングのための大規模なペアデータセットの構築に大きく依存している。
プラトン表現仮説(Platonic Representation hypothesis)を基礎として,モダリティギャップのブリッジ化におけるビジョン基礎モデル(VFM)の可能性を探る。
重み空間内で,特に限られた容量モデル上で動作させるPEFT手法の最適性能を認識し,最適化の視点を特徴空間にシフトさせ,ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
具体的には、一般知識の保存を最大化するためにVFMを完全に凍結したまま、我々は軽量で学習可能なオフセットエンコーダを設計し、原入力からモダリティとアイデンティティ属性に富んだドメイン固有表現を抽出する。
異なる層における中間特徴の文脈情報によって導かれるモジュレータは、これらの表現を適応的に変換する。
その後、付加核融合により中間層に注入され、VFMの事前訓練された重量を変えることなく、下流タスクに適応するために特徴分布を動的に再構成する。
実験結果から,訓練可能なパラメータを最小限に抑えたSOTA(State-of-the-Art)の性能が得られた。
例えば、HOSS-ReIDデータセットでは、それぞれ1.54Mパラメータと7.05Mパラメータしか使用せず、57.9\%と60.5\% mAPに達した。
コードはhttps://github.com/TingfengXian/DRIで公開されている。
関連論文リスト
- Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - CrossEarth-Gate: Fisher-Guided Adaptive Tuning Engine for Efficient Adaptation of Cross-Domain Remote Sensing Semantic Segmentation [32.405967784469304]
CrossEarth-Gateはリモートセンシング(RS)データにおける多面的なドメインギャップに対処する。
このツールボックスで動作するフィッシャー誘導適応選択機構を開発した。
提案手法は,RSセマンティックセグメンテーションのための16のクロスドメインベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-25T13:41:59Z) - FedReFT: Federated Representation Fine-Tuning with All-But-Me Aggregation [12.544628972135905]
本稿では,クライアントの隠れ表現を微調整する新しい手法であるFederated Representation Fine-Tuning(FedReFT)を紹介する。
FedReFTは、隠された表現を直接操作するためにスパース介入層を適用し、軽量でセマンティックにリッチな微調整の代替を提供する。
We evaluate FedReFT on commonsense reasoning, arithmetic reasoning, instruction-tuning, and GLUE。
論文 参考訳(メタデータ) (2025-08-27T22:03:19Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - LSP-ST: Ladder Shape-Biased Side-Tuning for Robust Infrared Small Target Detection [4.5138645285711165]
LSP-ST(Ladder Shape-Biased Side-Tuning)を提案する。
学習可能なパラメータは4.72Mしかなく、LSP-STは複数の赤外線小ターゲット検出ベンチマークで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-04-20T04:12:38Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。