Fugu-MT 論文翻訳(概要): Evaluating Large and Lightweight Vision Models for Irregular Component Segmentation in E-Waste Disassembly

論文の概要: Evaluating Large and Lightweight Vision Models for Irregular Component Segmentation in E-Waste Disassembly

arxiv url: http://arxiv.org/abs/2603.27441v1
Date: Sat, 28 Mar 2026 23:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.959609
Title: Evaluating Large and Lightweight Vision Models for Irregular Component Segmentation in E-Waste Disassembly
Title（参考訳）: E-Waste 分解における不規則成分分割のための大規模および軽量視覚モデルの評価
Authors: Xinyao Zhang, Chang Liu, Xiao Liang, Minghui Zheng, Sara Behdad,
Abstract要約: 本研究では,トランスフォーマーベース視覚モデルSAM2と軽量YOLOv8ネットワークを比較し,モデルアーキテクチャとスケールがセグメンテーション性能に与える影響を評価する。どちらのモデルも、ノートパソコンコンポーネントの1,456の注釈付きRGBイメージを新たに収集したデータセットでトレーニングされ、テストされた。 YOLOv8 は SAM2 よりも高いセグメンテーション精度 (mAP50 = 98.8%、mAP50-95 = 85%) を達成した。
参考スコア（独自算出の注目度）: 6.406660264354382
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Precise segmentation of irregular and densely arranged components is essential for robotic disassembly and material recovery in electronic waste (e-waste) recycling. This study evaluates the impact of model architecture and scale on segmentation performance by comparing SAM2, a transformer-based vision model, with the lightweight YOLOv8 network. Both models were trained and tested on a newly collected dataset of 1,456 annotated RGB images of laptop components including logic boards, heat sinks, and fans, captured under varying illumination and orientation conditions. Data augmentation techniques, such as random rotation, flipping, and cropping, were applied to improve model robustness. YOLOv8 achieved higher segmentation accuracy (mAP50 = 98.8%, mAP50-95 = 85%) and stronger boundary precision than SAM2 (mAP50 = 8.4%). SAM2 demonstrated flexibility in representing diverse object structures but often produced overlapping masks and inconsistent contours. These findings show that large pre-trained models require task-specific optimization for industrial applications. The resulting dataset and benchmarking framework provide a foundation for developing scalable vision algorithms for robotic e-waste disassembly and circular manufacturing systems.
Abstract（参考訳）: 電子廃棄物(e-waste)リサイクルにおけるロボット分解, 材料回収には, 不規則成分と密集成分の精密セグメンテーションが不可欠である。本研究では,トランスフォーマーベース視覚モデルSAM2と軽量YOLOv8ネットワークを比較し,モデルアーキテクチャとスケールがセグメンテーション性能に与える影響を評価する。どちらのモデルも、ロジックボード、ヒートシンク、ファンを含むラップトップコンポーネントの1,456枚の注釈付きRGBイメージのデータセットでトレーニングされ、テストされた。モデルロバスト性を改善するために,ランダム回転,フリップ,トリッピングなどのデータ拡張手法を適用した。 YOLOv8 は SAM2 (mAP50 = 8.4%) よりも高いセグメンテーション精度 (mAP50 = 98.8%、mAP50-95 = 85%) を達成した。 SAM2は多様な物体構造を表現する柔軟性を示したが、しばしば重なり合うマスクや不整合輪郭を生み出した。これらの結果から, 大規模事前学習モデルでは, 産業用途のタスク固有最適化が必要であることが示唆された。得られたデータセットとベンチマークフレームワークは、ロボットのe-waste分解および円形製造システムのためのスケーラブルなビジョンアルゴリズムを開発する基盤を提供する。

関連論文リスト

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文参考訳（メタデータ） (2026-01-22T18:58:16Z)
Hybrid Synthetic Data Generation with Domain Randomization Enables Zero-Shot Vision-Based Part Inspection Under Extreme Class Imbalance [3.7696918637188817]
堅牢な機械学習モデルのトレーニングには、大量の高品質なラベル付きデータが必要である。欠陥サンプルは本質的に稀であり、モデル性能を低下させる深刻なクラス不均衡を引き起こす。合成データ生成は、大きく、バランスよく、完全に注釈付けされたデータセットの作成を可能にすることで、有望なソリューションを提供する。
論文参考訳（メタデータ） (2025-11-28T05:30:49Z)
IMD: A 6-DoF Pose Estimation Benchmark for Industrial Metallic Objects [4.959150853096882]
産業用途に適した新しいデータセットとベンチマークである textitIndustrial Metallic dataset (IMD) を提案する。このデータセットは45の産業用部品からなり、自然の屋内照明の下でRGB-Dカメラで撮影する。このベンチマークは、ビデオオブジェクトセグメンテーション、6Dポーズトラッキング、ワンショット6Dポーズ推定を含む3つのタスクをサポートする。
論文参考訳（メタデータ） (2025-09-15T08:28:15Z)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach [0.0]
非構成の複雑な環境における物体検出タスクのためのFlorence2モデルを微調整した。最適化されたFlorence2モデルでは、オブジェクト検出精度が大幅に向上した。
論文参考訳（メタデータ） (2025-03-06T19:31:51Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文参考訳（メタデータ） (2024-09-14T21:01:49Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2022-08-08T09:08:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。