論文の概要: LeMoRe: Learn More Details for Lightweight Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.23093v1
- Date: Thu, 29 May 2025 04:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.683336
- Title: LeMoRe: Learn More Details for Lightweight Semantic Segmentation
- Title(参考訳): LeMoRe: 軽量セマンティックセマンティックセグメンテーションの詳細を学ぶ
- Authors: Mian Muhammad Naeem Abid, Nancy Mehta, Zongwei Wu, Radu Timofte,
- Abstract要約: 計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
- 参考スコア(独自算出の注目度): 48.81126061219231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lightweight semantic segmentation is essential for many downstream vision tasks. Unfortunately, existing methods often struggle to balance efficiency and performance due to the complexity of feature modeling. Many of these existing approaches are constrained by rigid architectures and implicit representation learning, often characterized by parameter-heavy designs and a reliance on computationally intensive Vision Transformer-based frameworks. In this work, we introduce an efficient paradigm by synergizing explicit and implicit modeling to balance computational efficiency with representational fidelity. Our method combines well-defined Cartesian directions with explicitly modeled views and implicitly inferred intermediate representations, efficiently capturing global dependencies through a nested attention mechanism. Extensive experiments on challenging datasets, including ADE20K, CityScapes, Pascal Context, and COCO-Stuff, demonstrate that LeMoRe strikes an effective balance between performance and efficiency.
- Abstract(参考訳): 軽量なセマンティックセグメンテーションは多くの下流視覚タスクに不可欠である。
残念ながら、既存のメソッドは、機能モデリングの複雑さのために、効率とパフォーマンスのバランスをとるのに苦労することが多い。
これらの既存のアプローチの多くは、厳密なアーキテクチャと暗黙的な表現学習によって制約されており、しばしばパラメータの多い設計と、計算集約型のVision Transformerベースのフレームワークに依存している。
本研究では,計算効率と表現の忠実さのバランスをとるために,明示的および暗黙的モデリングを相乗化することによって,効率的なパラダイムを導入する。
提案手法は,明確にモデル化されたビューと暗黙的に推論された中間表現とを組み合わせ,ネストされたアテンション機構を通じてグローバルな依存関係を効率的に取得する。
ADE20K、CityScapes、Pascal Context、COCO-Stuffといった挑戦的なデータセットに関する大規模な実験は、LeMoReがパフォーマンスと効率の効果的なバランスを取ることを実証している。
関連論文リスト
- Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。
私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - Contextual Reinforcement in Multimodal Token Compression for Large Language Models [0.0]
トークン圧縮は、ますます複雑で多様なデータセットを扱うためにモデルをスケーリングする上で、依然として重要な課題である。
相互依存や意味的関連性を通じてトークンの重要度を動的に調整する,コンテキスト強化に基づく新しいメカニズムを導入する。
このアプローチは,情報表現の品質と一貫性を維持しつつ,トークン使用量の大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-01-28T02:44:31Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。