Fugu-MT 論文翻訳(概要): Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation

論文の概要: Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation

arxiv url: http://arxiv.org/abs/2504.14481v1
Date: Sun, 20 Apr 2025 04:12:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 00:17:36.834767
Title: Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation
Title（参考訳）: ロバストなユニバーサルフォアグラウンドセグメンテーションのための視覚中心表現効率の良いファインチューニング
Authors: Guoyi Zhang, Siyang Chen, Guangsheng Xu, Han Wang, Xiaohu Zhang,
Abstract要約: 前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。 LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
参考スコア（独自算出の注目度）: 5.326302374594885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foreground segmentation is crucial for scene understanding, yet parameter-efficient fine-tuning (PEFT) of vision foundation models (VFMs) often fails in complex scenarios, such as camouflage and infrared imagery. We attribute this challenge to the inherent texture bias in VFMs, which is exacerbated during fine-tuning and limits generalization in texture-sparse environments. To address this, we propose Ladder Shape-bias Representation Side-tuning (LSR-ST), a lightweight PEFT framework that enhances model robustness by introducing shape-biased inductive priors. LSR-ST captures shape-aware features using a simple HDConv Block, which integrates large-kernel attention and residual learning. The method satisfies three key conditions for inducing shape bias: large receptive fields, multi-order feature interactions, and sparse connectivity. Our analysis reveals that these improvements stem from representation efficiency-the ability to extract task-relevant, structurally grounded features while minimizing redundancy. We formalize this concept via Information Bottleneck theory and advocate for it as a key PEFT objective. Unlike traditional NLP paradigms that focus on optimizing parameters and memory, visual tasks require models that extract task-defined semantics, rather than just relying on pre-encoded features. This shift enables our approach to move beyond conventional trade-offs, offering more robust and generalizable solutions for vision tasks. With minimal changes to SAM2-UNet, LSR-ST achieves consistent improvements across 17 datasets and 6 tasks using only 4.719M trainable parameters. These results highlight the potential of representation efficiency for robust and adaptable VFMs within complex visual environments.
Abstract（参考訳）: 前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は、カモフラージュや赤外線画像のような複雑なシナリオでしばしば失敗する。この課題は,VFMのテクスチャバイアスが微調整時に悪化し,テクスチャスパース環境における一般化が制限されていることに起因する。そこで本稿では, モデルロバスト性を向上させる軽量PEFTフレームワークであるLadder Shape-bias Representation Side-tuning (LSR-ST)を提案する。 LSR-STは、大きなカーネルの注意と残留学習を統合するシンプルなHDConv Blockを使用して、形状認識機能をキャプチャする。本手法は, 形状バイアスを誘発する3つの重要な条件を満たす。これらの改善は, 冗長性を最小化しつつ, タスク関連, 構造的基盤的特徴を抽出する, 表現効率の向上に起因していることが明らかとなった。我々は,この概念をインフォメーション・ボトルネック理論で定式化し,鍵となるPEFTの目的として提唱する。パラメータとメモリの最適化に重点を置く従来のNLPパラダイムとは異なり、視覚タスクは、事前に符号化された機能に頼るのではなく、タスク定義のセマンティクスを抽出するモデルを必要とする。このシフトにより、私たちのアプローチは従来のトレードオフを超えて、ビジョンタスクをより堅牢で一般化可能なソリューションを提供することができます。 SAM2-UNetの最小限の変更により、LSR-STは17のデータセットと6つのタスクで、トレーニング可能なパラメータは4.719Mのみである。これらの結果は、複雑な視覚環境における堅牢で適応可能なVFMの表現効率の可能性を強調している。

関連論文リスト

AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文参考訳（メタデータ） (2025-05-15T17:59:39Z)
Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning [8.284127681482202]
LVTPは、マルチスケールのTsallisエントロピーと2倍のクラスタリングを備えた低レベル視覚特徴によってガイドされるプログレッシブトークンプルーニングフレームワークである。高レベルのセマンティクスと、正確なセグメンテーションのための基本的な視覚属性を統合している。プラグアンドプレイモジュールとして、アーキテクチャの変更や追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2025-04-25T00:43:20Z)
CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文参考訳（メタデータ） (2025-04-02T03:22:36Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文参考訳（メタデータ） (2024-10-15T08:39:05Z)
SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。 OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文参考訳（メタデータ） (2024-04-18T12:41:33Z)
Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。 VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文参考訳（メタデータ） (2024-04-11T17:27:39Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。 5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文参考訳（メタデータ） (2022-07-21T10:48:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。