Fugu-MT 論文翻訳(概要): Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

論文の概要: Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

arxiv url: http://arxiv.org/abs/2312.04265v3
Date: Tue, 9 Jan 2024 08:29:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 19:35:12.737462
Title: Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation
Title（参考訳）: strong, less, and superior: ドメイン一般化意味セグメンテーションのためのビジョン基盤モデルを活用する
Authors: Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng
Abstract要約: 私たちはまず、ドメイン一般化セマンティック(DGSS)の文脈における様々なビジョン基礎モデル(VFM)を評価し、活用する。 DGSS にパラメータ効率よく VFM を利用するための頑健な微調整手法,すなわち Rein を導入する。トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率よく微調整し、完全なパラメータの微調整を驚くほど上回った。
参考スコア（独自算出の注目度）: 16.734477744892466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 68.1% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git.
Abstract（参考訳）: 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための堅牢な微調整手法、すなわちReinを導入する。トレーニング可能なトークンセットに基づいて構築され、それぞれが異なるインスタンスにリンクされ、機能マップを各レイヤからバックボーン内の次のレイヤに正確に洗練し、転送する。このプロセスは、単一の画像内のさまざまなカテゴリの多様な改良を生み出す。トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率的に微調整する。さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。注目すべきは、凍結したバックボーン内のトレーニング可能なパラメータのわずか1%で、Reinは実際の都市シーンデータセットにアクセスすることなく、Cityscapesで68.1%のmIoUを達成したことだ。

関連論文リスト

Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis [22.55861092515539]
重要なボトルネックは、効果的な報酬モデル(RM)の欠如である。我々は,最初のオープンソースルーリックグラウンド報酬モデルである textbf Omni-RRM を紹介する。テキスト、画像、ビデオ、オーディオにまたがって、次元的に正当化された構造化された多次元の選好判断を生成する。
論文参考訳（メタデータ） (2026-01-31T18:20:45Z)
Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文参考訳（メタデータ） (2025-12-24T02:30:23Z)
GS-KAN: Parameter-Efficient Kolmogorov-Arnold Networks via Sprecher-Type Shared Basis Functions [0.0]
我々は、David Sprecherの重ね合わせ定理の洗練に触発された軽量アーキテクチャであるGS-KAN(Generalized Sprecher-KAN)を提案する。 GS-KANは、学習可能な線形変換を1層に1つの学習可能な共有親関数に適用することにより、独自のエッジ関数を構築する。その結果,GS-KANはパラメータ効率を向上しつつ,連続関数タスクにおける近似と標準kanベースラインの両方に優れていた。
論文参考訳（メタデータ） (2025-12-09T19:56:36Z)
SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder [54.31950189922548]
リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。 Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。 SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-11T06:51:56Z)
Rein++: Efficient Generalization and Adaptation for Semantic Segmentation with Vision Foundation Models [47.66611300605174]
Rein++は効率的なVFMベースのセグメンテーションフレームワークである。これは限られたデータからの優れた一般化を示す。多様な未ラベルシナリオへの効果的な適応を可能にする。
論文参考訳（メタデータ） (2025-08-03T08:53:30Z)
Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文参考訳（メタデータ） (2025-06-24T17:58:02Z)
Dynamic Fisher-weighted Model Merging via Bayesian Optimization [37.02810891820468]
既存のマージアプローチでは、一般的にパラメータをモデル的にスケーリングするか、パラメータの重要度をパラメータ的に統合する。我々はこれらの戦略をより一般的な統合フレームワークに統合し、動的フィッシャー重み付け(DF-Merge)を導入する。 DF-Mergeは、異なるサイズと様々なタスクのモデルにおいて、強いベースラインを上回ります。
論文参考訳（メタデータ） (2025-04-26T18:31:14Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images [22.054023867495722]
クラウドセグメンテーションはリモートセンシング画像解釈において重要な課題である。本稿では,クラウドセグメンテーションの精度とロバスト性を高めるために,Cloud-Adapterと呼ばれるパラメータ効率適応手法を提案する。
論文参考訳（メタデータ） (2024-11-20T08:37:39Z)
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models [19.752712857873043]
本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。 SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
論文参考訳（メタデータ） (2024-09-07T10:21:03Z)
No Train, all Gain: Self-Supervised Gradients Improve Deep Frozen Representations [30.9134119244757]
FUNGIは、自己教師付き勾配を利用してトランスフォーマーエンコーダの特徴を高める方法である。事前訓練されたモデルがあれば、まず入力毎に様々な自己教師対象からの勾配を計算します。得られた特徴は、視覚からの11データセット、自然言語処理からの5データセット、オーディオからの2データセットの k-nearest 隣の分類に基づいて評価される。
論文参考訳（メタデータ） (2024-07-15T17:58:42Z)
TAIA: Large Language Models are Out-of-Distribution Data Learners [30.57872423927015]
効果的な推論時間介入手法を提案する:全てのパラメータを訓練するが、注意のみで推論する(trainallInfAttn)。 trainallInfAttnは、ほとんどのシナリオで完全に調整されたモデルとベースモデルの両方と比較して、優れた改善を実現している。 trainallInfAttnのデータのミスマッチに対する高い耐性は、jailbreakのチューニングに耐性を持ち、一般的なデータを使った特別なタスクを強化する。
論文参考訳（メタデータ） (2024-05-30T15:57:19Z)
Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文参考訳（メタデータ） (2024-04-02T17:58:49Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
More than the Sum of Its Parts: Ensembling Backbone Networks for Few-Shot Segmentation [49.090592800481616]
異なるバックボーンから特徴を融合させることで、よりリッチな視覚的特徴を捉えることができるかどうかを検討する。 Independent Voting と Feature Fusion という2つのアンサンブル手法を提案し,比較する。当社のアプローチは、ワンショットの学習シナリオに挑戦しても、従来の単一バックボーンPANetを標準ベンチマークで上回ります。
論文参考訳（メタデータ） (2024-02-09T18:01:15Z)
Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文参考訳（メタデータ） (2023-11-27T14:17:41Z)
Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文参考訳（メタデータ） (2022-11-16T21:55:05Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Adaptive Recursive Circle Framework for Fine-grained Action Recognition [95.51097674917851]
ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。既存のほとんどのメソッドは、純粋なフィードフォワード方式でレイヤの特徴を生成する。本稿では,純粋なフィードフォワード層のための微細なデコレータであるAdaptive Recursive Circleフレームワークを提案する。
論文参考訳（メタデータ） (2021-07-25T14:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。