論文の概要: FusionSort: Enhanced Cluttered Waste Segmentation with Advanced Decoding and Comprehensive Modality Optimization
- arxiv url: http://arxiv.org/abs/2508.19798v1
- Date: Wed, 27 Aug 2025 11:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.611292
- Title: FusionSort: Enhanced Cluttered Waste Segmentation with Advanced Decoding and Comprehensive Modality Optimization
- Title(参考訳): FusionSort: 高度デコードと包括的モダリティ最適化によるごみ分別削減
- Authors: Muhammad Ali, Omar Ali AlSuwaidi,
- Abstract要約: 我々は,既存のデコーダ構造の上に構築された改良型ニューラルネットワークを導入し,廃棄物処理システムの精度と効率を向上させる。
私たちのモデルは、デコーダ内の包括的注意ブロック(Comprehensive Attention Block)と、畳み込みとアップサンプリング操作を組み合わせることで特徴表現を洗練します。
また、3つ以上のチャネルで画像を融合するData Fusion Blockも導入しています。
- 参考スコア(独自算出の注目度): 0.17582178425580988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of waste management, automating the sorting process for non-biodegradable materials presents considerable challenges due to the complexity and variability of waste streams. To address these challenges, we introduce an enhanced neural architecture that builds upon an existing Encoder-Decoder structure to improve the accuracy and efficiency of waste sorting systems. Our model integrates several key innovations: a Comprehensive Attention Block within the decoder, which refines feature representations by combining convolutional and upsampling operations. In parallel, we utilize attention through the Mamba architecture, providing an additional performance boost. We also introduce a Data Fusion Block that fuses images with more than three channels. To achieve this, we apply PCA transformation to reduce the dimensionality while retaining the maximum variance and essential information across three dimensions, which are then used for further processing. We evaluated the model on RGB, hyperspectral, multispectral, and a combination of RGB and hyperspectral data. The results demonstrate that our approach outperforms existing methods by a significant margin.
- Abstract(参考訳): 廃棄物管理の領域では,非生分解性材料の選別プロセスの自動化は, ごみ流の複雑さと変動性から, かなりの課題を呈している。
これらの課題に対処するために,既存のEncoder-Decoder構造の上に構築されたニューラルネットワークを導入し,廃棄物処理システムの精度と効率を向上させる。
私たちのモデルは、デコーダ内の包括的注意ブロック(Comprehensive Attention Block)と、畳み込みとアップサンプリング操作を組み合わせることで特徴表現を洗練します。
並行して、Mambaアーキテクチャを通じて注意を払って、さらなるパフォーマンス向上を提供します。
また、3つ以上のチャネルで画像を融合するData Fusion Blockも導入しています。
これを実現するために,PCA変換を用いて3次元にわたる最大分散と必須情報を保持し,さらに処理を行う。
RGB, ハイパースペクトル, マルチスペクトル, およびRGBとハイパースペクトルデータを組み合わせたモデルについて検討した。
その結果,提案手法は既存手法よりも有意差があることが判明した。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery
with Transformers [17.22112222736234]
トランスフォーマーエンコーダアーキテクチャは近年,モノキュラー3次元メッシュ再構築における最先端の成果を達成している。
メモリのオーバーヘッドが大きく、推論速度が遅いため、そのようなモデルを実用的な用途に展開することは困難である。
本稿では,FastMETROと呼ばれる単一画像からの3次元メッシュ再構成のためのトランスフォーマエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-27T22:54:09Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion
Segmentation of COVID-19 Chest CT Scans [11.946078871080836]
高度に効率的なニューラルネットワークアーキテクチャ、すなわちCovSegNetを利用して、自動化されたCOVID-19病変のセグメンテーションスキームを提案する。
パフォーマンスは3つの公開データセットで達成されており、他の最先端のアプローチよりも大幅に向上している。
論文 参考訳(メタデータ) (2020-12-02T19:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。