論文の概要: Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications
- arxiv url: http://arxiv.org/abs/2603.00931v1
- Date: Sun, 01 Mar 2026 05:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.418777
- Title: Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications
- Title(参考訳): 無駄を省くための学習: 物理インフォームド・マルチモーダル・フュージョン・フレームワークと商業・産業用大規模データセット
- Authors: Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam, Subhey Sadi Rahman, Md. Abdur Rahman, Arefin Ittesafun Abian, Mohaimenul Azam Khan Raiaan, Kheng Cher Yeo, Deepika Mathur, Sami Azam,
- Abstract要約: 本稿では,RGB画像と物体寸法,カメラ距離,カメラ高さなどの物理情報メタデータを組み合わせることで,廃棄物の重量を推定するフレームワークを提案する。
また, 物流・リサイクル現場から収集した10,421の同期画像メタデータを実世界のデータセットとして, Waste-Weight-10Kを紹介した。
提案手法は平均絶対誤差(MAE)が88.06kg、平均絶対誤差(MAPE)が6.39%、R2係数が0.9548である。
- 参考スコア(独自算出の注目度): 2.1554833833565383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate weight estimation of commercial and industrial waste is important for efficient operations, yet image-based estimation remains difficult because similar-looking objects may have different densities, and the visible size changes with camera distance. Addressing this problem, we propose Multimodal Weight Predictor (MWP) framework that estimates waste weight by combining RGB images with physics-informed metadata, including object dimensions, camera distance, and camera height. We also introduce Waste-Weight-10K, a real-world dataset containing 10,421 synchronized image-metadata collected from logistics and recycling sites. The dataset covers 11 waste categories and a wide weight range from 3.5 to 3,450 kg. Our model uses a Vision Transformer for visual features and a dedicated metadata encoder for geometric and category information, combining them with Stacked Mutual Attention Fusion that allows visual and physical cues guide each other. This helps the model manage perspective effects and link objects to material properties. To ensure stable performance across the wide weight range, we train the model using Mean Squared Logarithmic Error. On the test set, the proposed method achieves 88.06 kg Mean Absolute Error (MAE), 6.39% Mean Absolute Percentage Error (MAPE), and an R2 coefficient of 0.9548. The model shows strong accuracy for light objects in the 0-100 kg range with 2.38 kg MAE and 3.1% MAPE, maintaining reliable performance for heavy waste in the 1000-2000 kg range with 11.1% MAPE. Finally, we incorporate a physically grounded explanation module using Shapley Additive Explanations (SHAP) and a large language model to provide clear, human-readable explanations for each prediction.
- Abstract(参考訳): 商業廃棄物および産業廃棄物の正確な重量推定は, 効率的な運転には重要であるが, 画像に基づく推定は, 類似の物体の密度が異なり, 可視サイズがカメラ距離によって変化するため, 依然として困難である。
この問題に対処するために,RGB画像と物体寸法,カメラ距離,カメラ高さなどの物理情報を用いたメタデータを組み合わせることで,廃棄物重量を推定するマルチモーダル重み予測器(MWP)フレームワークを提案する。
また, 物流・リサイクル現場から収集した10,421の同期画像メタデータを実世界のデータセットとして, Waste-Weight-10Kを紹介した。
このデータセットは11の廃棄物カテゴリーと3.5から3450kgの広い重量範囲をカバーしている。
我々のモデルは視覚的特徴にビジョントランスフォーマーを使用し、幾何学的・カテゴリー的情報に専用のメタデータエンコーダを使用し、視覚的・物理的手がかりを相互に案内するスタック型相互注意融合と組み合わせている。
これにより、モデルがパースペクティブエフェクトを管理し、オブジェクトをマテリアルプロパティにリンクするのに役立つ。
広い重量範囲で安定した性能を確保するために,平均二乗対数誤差を用いてモデルを訓練する。
提案手法は, 平均絶対誤差が88.06kg, 平均絶対誤差が6.39%, R2係数が0.9548である。
このモデルは、0-100 kg範囲の光オブジェクトに対して2.38 kg MAEと3.1% MAPEの信頼性を示し、1000-2000 kg範囲の重ごみに対して11.1% MAPEの信頼性を維持した。
最後に,Shapley Additive Explanations (SHAP) と大規模言語モデルを用いて,各予測に対して明確で可読な説明を提供する。
関連論文リスト
- Multimodal Feature-Driven Deep Learning for the Prediction of Duck Body Dimensions and Weight [12.125067563652257]
本研究では、異なるビュー、深度画像、および3D点雲からのマルチモーダルデータ2D RGB画像を活用する革新的な深層学習モデルを提案する。
姿勢や条件の異なる5,000以上のサンプルからなる1,023羽のLinwuアヒルのデータセットを収集し、モデルトレーニングを支援した。
このモデルは平均絶対パーセンテージ誤差(MAPE)が6.33%、R2が0.953で8つの形態パラメータで達成され、強い予測能力を示した。
論文 参考訳(メタデータ) (2025-03-18T08:09:19Z) - Rethinking Weight-Averaged Model-merging [15.2881959315021]
モデルマージ(特に重量平均化)は、計算を節約し、追加のトレーニングなしでモデル性能を向上させるという驚くべき効果を示した。
本研究では,解釈可能性のレンズを通した平均的な重み付けモデルを再解釈し,その挙動を規定するメカニズムに関する実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-11-14T08:02:14Z) - Focus on Low-Resolution Information: Multi-Granular Information-Lossless Model for Low-Resolution Human Pose Estimation [13.263078901528162]
ダウンサンプリング層を置き換えるために,MGIL(Multi-Granular Information-Lossless)モデルを提案する。
MGILは、ローカル情報の損失を防止するために、粒度の細かい無意味情報抽出(FLIE)モジュールを使用している。
包括的実験による様々な視覚タスクにおけるその可能性を示す。
論文 参考訳(メタデータ) (2024-05-19T04:33:45Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Scalable Object Detection on Embedded Devices Using Weight Pruning and
Singular Value Decomposition [0.0]
本稿では,重み付けと特異値分解(SVD)を組み合わせた物体検出モデルの最適化手法を提案する。
提案手法は,roboflow.com/roboflow-100/ Street-workから得られたストリートワークイメージのカスタムデータセットを用いて評価した。
本研究は,提案手法が精度,速度,モデルサイズのバランスを保ちながら,オブジェクト検出モデルを効果的に最適化できることを実証する。
論文 参考訳(メタデータ) (2023-03-05T18:02:54Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。