論文の概要: Adaptive Contextual Embedding for Robust Far-View Borehole Detection
- arxiv url: http://arxiv.org/abs/2505.05008v1
- Date: Thu, 08 May 2025 07:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.788548
- Title: Adaptive Contextual Embedding for Robust Far-View Borehole Detection
- Title(参考訳): ロバスト・ファー・ビュー・ボアホール検出のための適応的文脈埋め込み
- Authors: Xuesong Liu, Tianyu Hao, Emmett J. Ientilucci,
- Abstract要約: 爆破作業では、遠視野画像から密集した小さなボアホールを正確に検出することが、運用上の安全性と効率の面で重要である。
指数移動平均(EMA)に基づく統計的更新から導出される一貫した埋め込み表現を明示的に活用することにより、既存のアーキテクチャ(例えば、YOLO)の上に構築する適応検出手法を提案する。
本手法では,(1)動的に更新された画像統計量を利用して照明やテクスチャの変動を頑健に処理する適応的拡張,(2)連続的かつ信頼性の高い特徴抽出を確実にするための埋め込み安定化,(3)空間コンテキストを利用した文脈改善による検出精度の向上,の3つの相乗的要素を紹介する。
- 参考スコア(独自算出の注目度): 2.206623168926072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In controlled blasting operations, accurately detecting densely distributed tiny boreholes from far-view imagery is critical for operational safety and efficiency. However, existing detection methods often struggle due to small object scales, highly dense arrangements, and limited distinctive visual features of boreholes. To address these challenges, we propose an adaptive detection approach that builds upon existing architectures (e.g., YOLO) by explicitly leveraging consistent embedding representations derived through exponential moving average (EMA)-based statistical updates. Our method introduces three synergistic components: (1) adaptive augmentation utilizing dynamically updated image statistics to robustly handle illumination and texture variations; (2) embedding stabilization to ensure consistent and reliable feature extraction; and (3) contextual refinement leveraging spatial context for improved detection accuracy. The pervasive use of EMA in our method is particularly advantageous given the limited visual complexity and small scale of boreholes, allowing stable and robust representation learning even under challenging visual conditions. Experiments on a challenging proprietary quarry-site dataset demonstrate substantial improvements over baseline YOLO-based architectures, highlighting our method's effectiveness in realistic and complex industrial scenarios.
- Abstract(参考訳): 制御されたブラスト操作では、遠視野画像から高密度に分布する小さなボアホールを正確に検出することは、運用上の安全性と効率性にとって重要である。
しかし、既存の検出方法は、小さな物体のスケール、非常に密集した配置、ボアホールの視覚的特徴に制限があるため、しばしば苦労する。
これらの課題に対処するために、指数移動平均(EMA)に基づく統計的更新から導出される一貫した埋め込み表現を明示的に活用して、既存のアーキテクチャ(例えば、YOLO)の上に構築する適応検出手法を提案する。
本手法では,(1)動的に更新された画像統計量を利用して照明やテクスチャの変動を頑健に処理する適応的拡張,(2)連続的かつ信頼性の高い特徴抽出を確実にするための埋め込み安定化,(3)空間コンテキストを利用した文脈改善による検出精度の向上,の3つの相乗的要素を紹介する。
難解な視覚条件下でも安定かつ頑健な表現学習が可能であるため,本手法におけるEMAの広汎な利用は特に有利である。
挑戦的なプロプライエタリな採石場データセットの実験では、ベースラインのYOLOアーキテクチャよりも大幅に改善され、現実的で複雑な産業シナリオにおける我々の方法の有効性が強調された。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Weakly-Supervised Anomaly Detection in Surveillance Videos Based on Two-Stream I3D Convolution Network [2.209921757303168]
本稿では,2ストリームインフレーション3D(I3D)畳み込みネットワークの適用により,異常検出分野の大幅な進歩を示す。
我々の研究は、MIL(Multiple Instance Learning)に基づく弱教師付き学習フレームワークを実装することにより、分野を前進させる。
本稿では、より適応性が高く、効率的で、コンテキスト対応の異常検出システムを提供することにより、コンピュータビジョンの分野に大きく貢献する。
論文 参考訳(メタデータ) (2024-11-13T16:33:27Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Self-Supervised Graph Transformer for Deepfake Detection [1.8133635752982105]
ディープフェイク検出手法は、与えられたデータセット内の偽造を認識できる有望な結果を示している。
ディープフェイク検出システムは、一般的な検出性能を保証するために、偽造タイプ、外観、品質に欠かせないままでいなければならない。
本研究では、自己教師付き事前学習モデルを利用して、例外的な一般化能力を実現するディープフェイク検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-27T17:22:41Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。