論文の概要: Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification
- arxiv url: http://arxiv.org/abs/2602.18961v1
- Date: Sat, 21 Feb 2026 21:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.419807
- Title: Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification
- Title(参考訳): 深度延長型YOLO-SAM2によるバラスト障害診断
- Authors: Shiyu Liu, Dylan Lester, Husnu Narman, Ammar Alzarrad, Pingping Zhu,
- Abstract要約: YOLO-SAM2は,RGB-Dデータを用いた鉄道線路のバラスト異常検出のためのフレームワークである。
信頼性を向上させるため,スリーパー・アライン・パイプラインによって実現された深度に基づく幾何解析を取り入れた。
実験により、深度を増す構成はバラストの不足の検出を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 6.122855247403851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a depth-enhanced YOLO-SAM2 framework for detecting ballast insufficiency in railway tracks using RGB-D data. Although YOLOv8 provides reliable localization, the RGB-only model shows limited safety performance, achieving high precision (0.99) but low recall (0.49) due to insufficient ballast, as it tends to over-predict the sufficient class. To improve reliability, we incorporate depth-based geometric analysis enabled by a sleeper-aligned depth-correction pipeline that compensates for RealSense spatial distortion using polynomial modeling, RANSAC, and temporal smoothing. SAM2 segmentation further refines region-of-interest masks, enabling accurate extraction of sleeper and ballast profiles for geometric classification. Experiments on field-collected top-down RGB-D data show that depth-enhanced configurations substantially improve the detection of insufficient ballast. Depending on bounding-box sampling (AABB or RBB) and geometric criteria, recall increases from 0.49 to as high as 0.80, and F1-score improves from 0.66 to over 0.80. These results demonstrate that integrating depth correction with YOLO-SAM2 yields a more robust and reliable approach for automated railway ballast inspection, particularly in visually ambiguous or safety-critical scenarios.
- Abstract(参考訳): 本稿では,RGB-Dデータを用いた鉄道線路のバラスト障害検出のための奥行き向上型YOLO-SAM2フレームワークを提案する。
YOLOv8は信頼性の高いローカライゼーションを提供するが、RGBのみのモデルでは、十分なクラスを過大評価する傾向があるため、高い精度 (0.99) と低いリコール (0.49) を実現している。
信頼性を向上させるために,多項式モデリング,RANSAC,時間平滑化を用いたRealSense空間歪みを補償するスリーパーアラインの深度補正パイプラインによって実現された深度に基づく幾何解析を組み込んだ。
SAM2セグメンテーションはさらに関心のあるマスクの領域を洗練し、幾何学的分類のためのスリーパーとバラストプロファイルの正確な抽出を可能にした。
フィールド・コレクトされたトップダウンRGB-Dデータによる実験により,深度向上によるバラスト検出が著しく改善された。
境界箱サンプリング(AABBまたはRCB)と幾何基準により、リコールは0.49から0.80に増加し、F1スコアは0.66から0.80に改善される。
これらの結果から, YOLO-SAM2と深度補正を併用することにより, 鉄道バラストの自動検査, 特に視覚的不明瞭, 安全クリティカルなシナリオにおいて, より堅牢で信頼性の高い手法が得られた。
関連論文リスト
- BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data [0.0]
本稿では,現在のビジョンに基づくレール欠陥検出手法の限界に対処する。
本稿では,RGB-Dデータを利用した軽量ピラミッドクロスアテンションネットワーク(LPCANet)を提案する。
LPCANetは990万のパラメータ、2.50GのFLOP、162.60fpsの推論速度で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-14T03:35:09Z) - An Efficient Remote Sensing Super Resolution Method Exploring Diffusion Priors and Multi-Modal Constraints for Crop Type Mapping [0.0]
超解像度は、低解像度でも歴史的に価値のあるリモートセンシング画像アーカイブを利用する方法を提供する。
現在の手法では、科学的に現実的なイメージを再構成するための現実的な制約として補助情報を限定的に活用している。
RSSR のための効率的な LSSR フレームワークを提案し,Landsat 8 と Sentinel 2 画像のペア化によるマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2025-10-27T14:34:52Z) - MRS-YOLO Railroad Transmission Line Foreign Object Detection Based on Improved YOLO11 and Channel Pruning [2.6795746856835785]
YOLO11に基づく改良アルゴリズム MRS-YOLOを提案する。
MRS-YOLOアルゴリズムのmAP50とmAP50:95はそれぞれ94.8%と86.4%に改善されている。
論文 参考訳(メタデータ) (2025-10-12T11:38:09Z) - DEPTHOR++: Robust Depth Enhancement from a Real-World Lightweight dToF and RGB Guidance [14.818201604060144]
DEPTHOR++は実用的で斬新な深度補完フレームワークである。
3つの重要な側面からのdToF入力に頑健さを増す。
ZJU-L5データセットと実世界のサンプルに基づいて、トレーニング戦略は既存の深度補完モデルを大幅に強化する。
論文 参考訳(メタデータ) (2025-09-30T16:41:11Z) - Efficient Fourier Filtering Network with Contrastive Learning for UAV-based Unaligned Bi-modal Salient Object Detection [8.12311871820753]
無人航空機(UAV)をベースとしたバイモーダル・サリエント・オブジェクト検出(BSOD)は、不整合RGBと熱画像ペアの相補的な手がかりを利用して、サリエント・オブジェクトをシーンに分割することを目的としている。
本稿では,実時間と高精度の両性能を両立させるコントラスト学習による効率的なフーリエフィルタネットワークを提案する。
提案モデルであるAlignSalはパラメータ数を70.0%削減し,浮動小数点演算を49.4%削減し,推論速度を152.5%向上させる。
論文 参考訳(メタデータ) (2024-11-06T07:46:34Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - Uncertainty-Aware Deep Calibrated Salient Object Detection [74.58153220370527]
既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。
これらの手法は、信頼不均衡問題として知られるネットワーク精度と予測信頼の間のギャップを見落としている。
我々は,不確実性を考慮した深部SODネットワークを導入し,深部SODネットワークの過信を防止するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-12-10T23:28:36Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。