論文の概要: Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation
- arxiv url: http://arxiv.org/abs/2504.14481v1
- Date: Sun, 20 Apr 2025 04:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:17:36.834767
- Title: Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation
- Title(参考訳): ロバストなユニバーサルフォアグラウンドセグメンテーションのための視覚中心表現効率の良いファインチューニング
- Authors: Guoyi Zhang, Siyang Chen, Guangsheng Xu, Han Wang, Xiaohu Zhang,
- Abstract要約: 前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。
LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
- 参考スコア(独自算出の注目度): 5.326302374594885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foreground segmentation is crucial for scene understanding, yet parameter-efficient fine-tuning (PEFT) of vision foundation models (VFMs) often fails in complex scenarios, such as camouflage and infrared imagery. We attribute this challenge to the inherent texture bias in VFMs, which is exacerbated during fine-tuning and limits generalization in texture-sparse environments. To address this, we propose Ladder Shape-bias Representation Side-tuning (LSR-ST), a lightweight PEFT framework that enhances model robustness by introducing shape-biased inductive priors. LSR-ST captures shape-aware features using a simple HDConv Block, which integrates large-kernel attention and residual learning. The method satisfies three key conditions for inducing shape bias: large receptive fields, multi-order feature interactions, and sparse connectivity. Our analysis reveals that these improvements stem from representation efficiency-the ability to extract task-relevant, structurally grounded features while minimizing redundancy. We formalize this concept via Information Bottleneck theory and advocate for it as a key PEFT objective. Unlike traditional NLP paradigms that focus on optimizing parameters and memory, visual tasks require models that extract task-defined semantics, rather than just relying on pre-encoded features. This shift enables our approach to move beyond conventional trade-offs, offering more robust and generalizable solutions for vision tasks. With minimal changes to SAM2-UNet, LSR-ST achieves consistent improvements across 17 datasets and 6 tasks using only 4.719M trainable parameters. These results highlight the potential of representation efficiency for robust and adaptable VFMs within complex visual environments.
- Abstract(参考訳): 前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は、カモフラージュや赤外線画像のような複雑なシナリオでしばしば失敗する。
この課題は,VFMのテクスチャバイアスが微調整時に悪化し,テクスチャスパース環境における一般化が制限されていることに起因する。
そこで本稿では, モデルロバスト性を向上させる軽量PEFTフレームワークであるLadder Shape-bias Representation Side-tuning (LSR-ST)を提案する。
LSR-STは、大きなカーネルの注意と残留学習を統合するシンプルなHDConv Blockを使用して、形状認識機能をキャプチャする。
本手法は, 形状バイアスを誘発する3つの重要な条件を満たす。
これらの改善は, 冗長性を最小化しつつ, タスク関連, 構造的基盤的特徴を抽出する, 表現効率の向上に起因していることが明らかとなった。
我々は,この概念をインフォメーション・ボトルネック理論で定式化し,鍵となるPEFTの目的として提唱する。
パラメータとメモリの最適化に重点を置く従来のNLPパラダイムとは異なり、視覚タスクは、事前に符号化された機能に頼るのではなく、タスク定義のセマンティクスを抽出するモデルを必要とする。
このシフトにより、私たちのアプローチは従来のトレードオフを超えて、ビジョンタスクをより堅牢で一般化可能なソリューションを提供することができます。
SAM2-UNetの最小限の変更により、LSR-STは17のデータセットと6つのタスクで、トレーニング可能なパラメータは4.719Mのみである。
これらの結果は、複雑な視覚環境における堅牢で適応可能なVFMの表現効率の可能性を強調している。
関連論文リスト
- IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - You Only Look Omni Gradient Backpropagation for Moving Infrared Small Target Detection [4.782962269769956]
小型ターゲット検出のためのバックプロパゲーション駆動型特徴ピラミッドアーキテクチャBP-FPNを提案する。
この設計は理論的に基礎があり、計算のオーバーヘッドを無視し、既存のフレームワークにシームレスに統合することができる。
複数の公開データセットに対する大規模な実験は、BP-FPNが一貫して新しい最先端のパフォーマンスを確立していることを示している。
論文 参考訳(メタデータ) (2025-11-17T06:13:41Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Beyond Motion Cues and Structural Sparsity: Revisiting Small Moving Target Detection [5.375165101682048]
小型移動目標検出は、多くの防衛用途に不可欠である。
しかし、低信号対雑音比、曖昧な視覚的手がかり、乱雑な背景のため、非常に困難である。
本稿では,既存のアプローチと根本的に異なる新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-09T12:20:25Z) - FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception [7.258172311752019]
重なり合う物体知覚は、ランダムに重なり合う前景の特徴を分離し、背景の特徴を抑えつつ前景の特徴を抽出することを目的としている。
本稿では、よりテクスチャや輪郭情報を抽出する際のモデルを支援するために、一般周波数ベースのアンチオーバーラップフレームワーク(FOAM)を提案する。
具体的には、周波数空間変換器ブロック(FSTB)を設計し、周波数領域と空間領域の両方から特徴を同時に抽出し、ネットワークがフォアグラウンドからより多くのテクスチャ特徴をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2025-06-16T13:58:49Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - CSPENet: Contour-Aware and Saliency Priors Embedding Network for Infrared Small Target Detection [4.731073701194089]
赤外線小目標検出(ISTD)は、幅広い民間・軍事用途において重要な役割を担っている。
既存の手法では, 密集した乱雑な環境下でのディムターゲットの局所化や輪郭情報の認識に欠陥がある。
本稿では,ISTDのためのcontour-aware and saliency priors embedded network (CSPENet)を提案する。
論文 参考訳(メタデータ) (2025-05-15T03:56:36Z) - Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning [8.284127681482202]
LVTPは、マルチスケールのTsallisエントロピーと2倍のクラスタリングを備えた低レベル視覚特徴によってガイドされるプログレッシブトークンプルーニングフレームワークである。
高レベルのセマンティクスと、正確なセグメンテーションのための基本的な視覚属性を統合している。
プラグアンドプレイモジュールとして、アーキテクチャの変更や追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2025-04-25T00:43:20Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficient Detection Framework Adaptation for Edge Computing: A Plug-and-play Neural Network Toolbox Enabling Edge Deployment [59.61554561979589]
エッジコンピューティングは、時間に敏感なシナリオでディープラーニングベースのオブジェクト検出をデプロイするための重要なパラダイムとして登場した。
既存のエッジ検出手法では、軽量モデルによる検出精度のバランスの難しさ、適応性の制限、現実の検証の不十分といった課題に直面している。
本稿では,汎用的なプラグイン・アンド・プレイコンポーネントを用いてエッジ環境にオブジェクト検出モデルを適用するエッジ検出ツールボックス(ED-TOOLBOX)を提案する。
論文 参考訳(メタデータ) (2024-12-24T07:28:10Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。
VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。
これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文 参考訳(メタデータ) (2024-04-11T17:27:39Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Attentional Local Contrast Networks for Infrared Small Target Detection [15.882749652217653]
赤外線小目標検出のための新しいモデル駆動深層ネットワークを提案する。
従来の局所コントラスト測定法を、エンドツーエンドネットワークにおける深さ自在なパラメータレス非線形特徴精製層としてモジュール化します。
ネットワークアーキテクチャの各コンポーネントの有効性と効率を実証的に検証するために,ネットワーク奥行きの異なる詳細なアブレーション研究を行う。
論文 参考訳(メタデータ) (2020-12-15T19:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。