Fugu-MT 論文翻訳(概要): Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

論文の概要: Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

arxiv url: http://arxiv.org/abs/2406.19369v1
Date: Thu, 27 Jun 2024 17:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:18:46.357984
Title: Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
Title（参考訳）: Mamba または RWKV: 高品質で高効率なセグメントモデルの探索
Authors: Haobo Yuan, Xiangtai Li, Lu Qi, Tao Zhang, Ming-Hsuan Yang, Shuicheng Yan, Chen Change Loy,
Abstract要約: 変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
参考スコア（独自算出の注目度）: 138.20621211946985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based segmentation methods face the challenge of efficient inference when dealing with high-resolution images. Recently, several linear attention architectures, such as Mamba and RWKV, have attracted much attention as they can process long sequences efficiently. In this work, we focus on designing an efficient segment-anything model by exploring these different architectures. Specifically, we design a mixed backbone that contains convolution and RWKV operation, which achieves the best for both accuracy and efficiency. In addition, we design an efficient decoder to utilize the multiscale tokens to obtain high-quality masks. We denote our method as RWKV-SAM, a simple, effective, fast baseline for SAM-like models. Moreover, we build a benchmark containing various high-quality segmentation datasets and jointly train one efficient yet high-quality segmentation model using this benchmark. Based on the benchmark results, our RWKV-SAM achieves outstanding performance in efficiency and segmentation quality compared to transformers and other linear attention models. For example, compared with the same-scale transformer model, RWKV-SAM achieves more than 2x speedup and can achieve better segmentation performance on various datasets. In addition, RWKV-SAM outperforms recent vision Mamba models with better classification and semantic segmentation results. Code and models will be publicly available.
Abstract（参考訳）: 変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。近年、Mamba や RWKV などの線形アテンションアーキテクチャは、長いシーケンスを効率的に処理できるため、多くの注目を集めている。本研究では,これらの異なるアーキテクチャを探索することで,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。具体的には、畳み込みとRWKV操作を含む混合バックボーンを設計し、精度と効率を両立させる。さらに,マルチスケールトークンを用いて高品質なマスクを得るための効率的なデコーダを設計する。 RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。さらに,様々な高品質セグメンテーションデータセットを含むベンチマークを構築し,このベンチマークを用いて効率的かつ高品質セグメンテーションモデルを共同で訓練する。ベンチマーク結果に基づいて,我々のRWKV-SAMは,変圧器や他の線形アテンションモデルと比較して,効率とセグメンテーション品質の優れた性能を実現している。例えば、同じスケールのトランスフォーマーモデルと比較して、RWKV-SAMは2倍以上のスピードアップを実現し、様々なデータセットでのセグメンテーション性能を向上させることができる。さらに、RWKV-SAMは、より優れた分類とセマンティックセグメンテーション結果を持つ最近のビジョンMambaモデルより優れている。コードとモデルは公開されます。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation [9.006936485052128]
ACM-UNetは医療画像のための汎用セグメンテーションフレームワークである。軽量アダプタ機構を通じて、事前訓練されたCNNとMambaモデルが組み込まれている。計算効率を保ちながら最先端の性能を達成する。
論文参考訳（メタデータ） (2025-05-30T11:30:53Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
RingFormer: Rethinking Recurrent Transformer with Adaptive Level Signals [2.287772422489548]
本稿では,リング状に繰り返し入力を処理するトランスフォーマー層を1つ導入したリングホルダーを提案する。これにより、翻訳や画像分類といった様々なタスクにおいて、高い性能を維持しながら、モデルパラメータを大幅に削減できる。
論文参考訳（メタデータ） (2025-02-18T09:34:31Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Efficient Knowledge Distillation of SAM for Medical Image Segmentation [0.04672991859386895]
Segment Anything Model (SAM)はインタラクティブなイメージセグメンテーションの新しい標準を設定し、さまざまなタスクで堅牢なパフォーマンスを提供する。我々は, エンコーダとデコーダの最適化を, Mean Squared Error (MSE) と Perceptual Loss の組み合わせで組み合わせた新しい知識蒸留手法 KD SAM を提案する。 KD SAMはセグメンテーションの精度と計算効率を効果的にバランスさせ、資源制約のある環境でリアルタイムの医用画像セグメンテーションに適している。
論文参考訳（メタデータ） (2025-01-28T06:33:30Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。 SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文参考訳（メタデータ） (2024-12-05T14:54:31Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文参考訳（メタデータ） (2024-09-07T05:31:24Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes [12.36950265154199]
本稿では, MCA-SAM という新しいマルチスケールコントラスト適応学習手法を提案する。 MCA-SAMはトークンレベルとサンプルレベルの両方で、巧妙に設計された対照的な学習フレームワークを通じて、アダプタのパフォーマンスを向上させる。 MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的な領域で上回る結果が得られた。
論文参考訳（メタデータ） (2024-08-12T06:23:10Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
Deep models for stroke segmentation: do complex architectures always perform better? [1.4651272514940197]
ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。一般的な医用画像分割のためのディープモデルが導入された。本研究では,最近提案された4種類の深部モデルを選択し,脳卒中セグメンテーションの性能評価を行った。
論文参考訳（メタデータ） (2024-03-25T20:44:01Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。 BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文参考訳（メタデータ） (2024-02-19T13:38:15Z)
Impact of PolSAR pre-processing and balancing methods on complex-valued neural networks segmentation tasks [9.6556424340252]
複素値ニューラルネットワーク(CVNN)を用いたポラリメトリック合成開口レーダ(PolSAR)のセマンティックセグメンテーションについて検討する。 6つのモデルアーキテクチャ,3つの複素値,それぞれの実等価モデルについて,両手法を徹底的に比較する。本稿では、このギャップを減らし、全ての入力表現、モデル、データセット前処理の結果を実行するための2つの方法を提案する。
論文参考訳（メタデータ） (2022-10-28T12:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。