論文の概要: Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2510.21114v1
- Date: Fri, 24 Oct 2025 03:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.368635
- Title: Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts
- Title(参考訳): Controllable-LPMoE:Mixture-of-Expertsによる動的局所事前処理によるオブジェクトセグメンテーションへの適応
- Authors: Yanguang Sun, Jiawei Lian, Jian Yang, Lei Luo,
- Abstract要約: 制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
- 参考スコア(独自算出の注目度): 16.21786310193235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale foundation models provide powerful feature representations for downstream object segmentation tasks. However, when adapted to specific tasks through the full-parameter fine-tuning, the enormous parameters being updated often results in significant computational overhead, creating a bottleneck in training efficiency. Although existing methods attempt to fine-tune frozen models by directly embedding trainable prompts, these prompts lack inherent semantic priors, limiting the adaptability of large-scale models. In this paper, we propose a novel dynamic priors-based fine-tuning paradigm with fewer trainable parameters, dubbed Controllable-LPMoE, which adaptively modulates frozen foundation models by dynamically controlling local priors to enhance fine-grained perception for specific segmentation tasks. More specifically, we construct a lightweight dynamic mixed local priors extractor that captures diverse local priors from input images through heterogeneous convolutions while employing a gating network to dynamically output expert priors required for the subsequent fine-tuning. Furthermore, we design a bi-directional interaction adapter that employs cosine-aligned deformable attention and channel-oriented adaptive scale enhancement to interact and restructure between frozen and trainable features, achieving efficient fine-tuning. Extensive experiments validate the superiority of our \href{https://github.com/CSYSI/Controllable-LPMoE} {Controllable-LPMoE} approach, demonstrating excellent segmentation performance compared to 31 state-of-the-art (SOTA) methods and adaptability to multiple binary object segmentation tasks.
- Abstract(参考訳): 大規模基盤モデルは、下流オブジェクトセグメンテーションタスクのための強力な特徴表現を提供する。
しかし、フルパラメータの微調整によって特定のタスクに適応すると、大きなパラメータが更新されると、大きな計算オーバーヘッドが発生し、訓練効率のボトルネックが生じる。
既存の手法では、訓練可能なプロンプトを直接埋め込むことで凍結モデルを微調整しようとするが、これらのプロンプトには固有のセマンティックな先行性がなく、大規模モデルの適応性に制限がある。
本稿では,局所的な事前制御を動的に行い,特定のセグメンテーションタスクの微粒化知覚を高めることにより,凍結基盤モデルを適応的に調整する,制御可能LPMoEと呼ばれる,トレーニング可能なパラメータの少ない動的事前学習パラダイムを提案する。
より具体的には、入力画像から異質な畳み込みを通じて様々な局所的先行情報をキャプチャする軽量な動的混合局所前処理抽出器を構築し、さらに、その後の微調整に必要なエキスパート前処理を動的に出力するゲーティングネットワークを用いる。
さらに,コサインアライメントされた変形性注意とチャネル指向の適応スケール拡張を利用して,凍結性とトレーニング性のある特徴の相互作用と再構成を実現し,効率的な微調整を実現する双方向インタラクションアダプタを設計する。
大規模な実験により、我々の \href{https://github.com/CSYSI/Controllable-LPMoE} {Controllable-LPMoE} アプローチの優位性が検証され、31の最先端(SOTA)メソッドと比較して優れたセグメンテーション性能と複数のバイナリオブジェクトセグメンテーションタスクへの適応性を示す。
関連論文リスト
- Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training [11.897717409259492]
自己教師付き学習(SSL)は、基礎モデルをトレーニングするための中心的なパラダイムとして登場した。
GLAREは,下流セグメンテーション性能の向上を目的とした,新規な自己教師型事前学習タスクである。
論文 参考訳(メタデータ) (2025-09-22T14:11:02Z) - Masked Feature Modeling Enhances Adaptive Segmentation [9.279607578922683]
Masked Feature Modeling (MFM) は機能マスキングと再構成を行う新しい補助タスクである。
MFMは学習目標をメインセグメンテーションタスクと整合させ、DeepLabやDAFormerといった標準アーキテクチャとの互換性を確保する。
効率的な再構築を容易にするために,推論時に共同で訓練されるが破棄される軽量補助モジュールであるRebuilderを導入する。
論文 参考訳(メタデータ) (2025-09-17T08:16:05Z) - Continual Adaptation: Environment-Conditional Parameter Generation for Object Detection in Dynamic Scenarios [54.58186816693791]
環境は時間と空間によって常に変化し、クローズドセットの仮定に基づいて訓練された物体検出器にとって重要な課題となる。
そこで本研究では,微調整過程をパラメータ生成に変換する機構を提案する。
特に,2経路LoRAベースのドメイン認識アダプタを最初に設計し,特徴をドメイン不変およびドメイン固有コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-30T17:14:12Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。