論文の概要: Bidirectional Cross-Attention Fusion of High-Res RGB and Low-Res HSI for Multimodal Automated Waste Sorting
- arxiv url: http://arxiv.org/abs/2603.13941v1
- Date: Sat, 14 Mar 2026 13:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.498538
- Title: Bidirectional Cross-Attention Fusion of High-Res RGB and Low-Res HSI for Multimodal Automated Waste Sorting
- Title(参考訳): 高比重RGBと低比重HSIの双方向クロスアテンション融合によるマルチモーダルオートマチック廃棄物ソーティング
- Authors: Jonas V. Funk, Lukas Roming, Andreas Michel, Paul Bäcker, Georg Maier, Thomas Längle, Markus Klute,
- Abstract要約: 本稿では,高分解能なRGBと低分解能なHSIを,局所的,双方向なクロスアテンションを介してネイティブグリッドで整列させるBi Cross-Attention Fusion (BCAF)を提案する。
BCAFは31画像/sで76.4% mIoU、55画像/sで75.4% mIoUの最先端性能を達成した。
- 参考スコア(独自算出の注目度): 0.7166329363666318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Growing waste streams and the transition to a circular economy require efficient automated waste sorting. In industrial settings, materials move on fast conveyor belts, where reliable identification and ejection demand pixel-accurate segmentation. RGB imaging delivers high-resolution spatial detail, which is essential for accurate segmentation, but it confuses materials that look similar in the visible spectrum. Hyperspectral imaging (HSI) provides spectral signatures that separate such materials, yet its lower spatial resolution limits detail. Effective waste sorting therefore needs methods that fuse both modalities to exploit their complementary strengths. We present Bidirectional Cross-Attention Fusion (BCAF), which aligns high-resolution RGB with low-resolution HSI at their native grids via localized, bidirectional cross-attention, avoiding pre-upsampling or early spectral collapse. BCAF uses two independent backbones: a standard Swin Transformer for RGB and an HSI-adapted Swin backbone that preserves spectral structure through 3D tokenization with spectral self-attention. We also analyze trade-offs between RGB input resolution and the number of HSI spectral slices. Although our evaluation targets RGB-HSI fusion, BCAF is modality-agnostic and applies to co-registered RGB with lower-resolution, high-channel auxiliary sensors. On the benchmark SpectralWaste dataset, BCAF achieves state-of-the-art performance of 76.4% mIoU at 31 images/s and 75.4% mIoU at 55 images/s. We further evaluate a novel industrial dataset: K3I-Cycling (first RGB subset already released on Fordatis). On this dataset, BCAF reaches 62.3% mIoU for material segmentation (paper, metal, plastic, etc.) and 66.2% mIoU for plastic-type segmentation (PET, PP, HDPE, LDPE, PS, etc.).
- Abstract(参考訳): 廃棄物の流れが成長し、循環経済への移行には効率的な自動化された廃棄物の選別が必要である。
産業環境では、材料は高速コンベアベルトに移動し、信頼できる識別と射出要求画素精度のセグメンテーションを行う。
RGBイメージングは、正確なセグメンテーションに欠かせない高解像度の空間的詳細を提供するが、可視光スペクトルに類似した物質を混乱させる。
ハイパースペクトルイメージング(HSI)は、これらの物質を分離するスペクトルシグネチャを提供するが、空間分解能の低さは詳細を制限している。
したがって, 廃棄物の効率的な選別には, 両者の相補的な強度を活かす方法が必要である。
本稿では,高分解能のRGBと低分解能のHSIを,局所的,双方向のクロスアテンションを介し,事前サンプリングや早期のスペクトル崩壊を回避したBCAF(Bidirectional Cross-Attention Fusion)を提案する。
BCAFは2つの独立したバックボーンを使用している: RGB用の標準スウィントランスフォーマーと、スペクトル自己注意による3Dトークン化を通じてスペクトル構造を保存するHSI適応スウィンバックボーンである。
また、RGB入力解像度とHSIスペクトルスライス数とのトレードオフを分析する。
評価はRGB-HSI融合を目標としているが,BCAFはモダリティ非依存であり,低分解能・高チャネル補助センサを用いた共登録RGBに適用できる。
ベンチマークのSpectralWasteデータセットでは、BCAFは31個の画像/sで76.4% mIoU、55個の画像/sで75.4% mIoUの最先端のパフォーマンスを達成した。
我々はさらに、新しい産業データセット、K3I-Cycling(Fordatisですでにリリースされている最初のRGBサブセット)を評価した。
このデータセットでは、BCAFは材料セグメンテーション(紙、金属、プラスチックなど)の62.3% mIoU、プラスチックタイプのセグメンテーション(PET、PP、HDPE、LDPE、PSなど)の66.2% mIoUに達する。
関連論文リスト
- Modality-Decoupled RGB-Thermal Object Detector via Query Fusion [15.717929078660227]
本稿では,モダリティ補間と分離のバランスをとるために,MDQF (Query Fusion) を用いたモダリティ分離RGB-T検出フレームワークを提案する。
提案手法は既存のRGB-T検出器に優れた性能を提供し,モダリティ独立性を向上する。
論文 参考訳(メタデータ) (2026-01-13T11:32:29Z) - CSNR and JMIM Based Spectral Band Selection for Reducing Metamerism in Urban Driving [3.2953155328671038]
メタメリズム(Metamerism)は、RGB画像において異なる物質が類似している現象である。
本研究は、高スペクトルイメージング(HSI)を用いて、この制限を克服し、可視スペクトルを超えたユニークな物質シグネチャをキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T13:50:51Z) - RGB Pre-Training Enhanced Unobservable Feature Latent Diffusion Model for Spectral Reconstruction [16.54284634377436]
スペクトル構造表現学習とスペクトル-空間共分散学習からなる2段階パイプラインを提案する。
第1段階では、スペクトル可観測特徴オートエンコーダ(SpeUAE)を訓練し、その可観測特徴をRGB空間に整列した3次元多様体に抽出し圧縮する。
その後、ULDMを取得し、対応するRGB画像からのガイダンスで符号化された観測不能な特徴の分布をモデル化する。
論文 参考訳(メタデータ) (2025-07-17T10:07:32Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Robust RGB-D Fusion for Saliency Detection [13.705088021517568]
本稿では, 層状および三重項空間, 注意機構の利点を生かしたRGB-D融合法を提案する。
5つのベンチマーク・データセットを用いた実験により,提案手法は最先端の核融合法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-08-02T21:23:00Z) - Hyperspectral Pansharpening Based on Improved Deep Image Prior and
Residual Reconstruction [64.10636296274168]
高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能高分解能化
近年,深層畳み込みネットワーク(ConvNets)を用いたHSパンシャープ法が注目に値する結果を得た。
深層層の増加を抑えることで高レベルの特徴を学習することに焦点を当てた,新しいオーバーコンプリートネットワークHyperKiteを提案する。
論文 参考訳(メタデータ) (2021-07-06T14:11:03Z) - Tuning IR-cut Filter for Illumination-aware Spectral Reconstruction from
RGB [84.1657998542458]
再現精度は、使用中のRGBカメラのスペクトル応答に大きく依存していることが証明されている。
本稿では,既存のrgbカメラのフィルタアレイに基づくカラーイメージング機構を調査し,irカットフィルタの設計方法を提案する。
論文 参考訳(メタデータ) (2021-03-26T19:42:21Z) - Fast Hyperspectral Image Recovery via Non-iterative Fusion of
Dual-Camera Compressive Hyperspectral Imaging [22.683482662362337]
符号化開口分光画像(CASSI)は3次元ハイパースペクトル像(HSI)を撮像するための有望な技術である
様々な正規化器を用いて2次元計測から3次元データを再構成している。
実現可能な解決策の1つは、CASSIのRGB測定などの追加情報を活用することです。
論文 参考訳(メタデータ) (2020-12-30T10:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。