論文の概要: Gaseous Object Detection
- arxiv url: http://arxiv.org/abs/2502.12415v1
- Date: Tue, 18 Feb 2025 01:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:15.082622
- Title: Gaseous Object Detection
- Title(参考訳): ガス状物体検出
- Authors: Kailai Zhou, Yibo Wang, Tao Lv, Qiu Shen, Xun Cao,
- Abstract要約: 本稿では,ガス状物体検出(GOD)という,希少な探索課題に取り組む。
GODは、物体検出技術が固体物質からガス物質へと拡張できるかどうかを探求することを目的としている。
我々は,様々な属性を多種類のガスでカバーする600ビデオ(141,017フレーム)からなるGOD-Videoデータセットを構築した。
このデータセットに基づいて包括的なベンチマークが確立され、フレームレベルおよびビデオレベル検出器の厳密な評価が可能になる。
- 参考スコア(独自算出の注目度): 24.190407295630393
- License:
- Abstract: Object detection, a fundamental and challenging problem in computer vision, has experienced rapid development due to the effectiveness of deep learning. The current objects to be detected are mostly rigid solid substances with apparent and distinct visual characteristics. In this paper, we endeavor on a scarcely explored task named Gaseous Object Detection (GOD), which is undertaken to explore whether the object detection techniques can be extended from solid substances to gaseous substances. Nevertheless, the gas exhibits significantly different visual characteristics: 1) saliency deficiency, 2) arbitrary and ever-changing shapes, 3) lack of distinct boundaries. To facilitate the study on this challenging task, we construct a GOD-Video dataset comprising 600 videos (141,017 frames) that cover various attributes with multiple types of gases. A comprehensive benchmark is established based on this dataset, allowing for a rigorous evaluation of frame-level and video-level detectors. Deduced from the Gaussian dispersion model, the physics-inspired Voxel Shift Field (VSF) is designed to model geometric irregularities and ever-changing shapes in potential 3D space. By integrating VSF into Faster RCNN, the VSF RCNN serves as a simple but strong baseline for gaseous object detection. Our work aims to attract further research into this valuable albeit challenging area.
- Abstract(参考訳): 物体検出はコンピュータビジョンの基本的かつ挑戦的な問題であり、ディープラーニングの有効性により急速に発展してきた。
検出される現在の物体は、主に目に見える、はっきりとした視覚特性を持つ固い固体物質である。
本稿では,固体物質からガス状物質へ対象物検出技術が拡張できるかどうかを探求する,ガス状物体検出(GOD)という課題について検討する。
それでも、ガスは視覚的特徴が著しく異なる。
1)塩分欠乏症。
2)任意の形,かつ常に変化する形
3) 明確な境界の欠如。
この課題の研究を容易にするために,600本のビデオ(141,017フレーム)からなるGOD-Videoデータセットを構築した。
このデータセットに基づいて包括的なベンチマークが確立され、フレームレベルおよびビデオレベル検出器の厳密な評価が可能になる。
フォクセルシフト場(Voxel Shift Field, VSF)は、ガウスの分散モデルから導かれる。
VSFをFaster RCNNに統合することで、VSF RCNNはガス状物体検出のための単純だが強力なベースラインとして機能する。
私たちの研究は、この挑戦的な分野にもかかわらず、この価値ある分野に関するさらなる研究を惹きつけることを目的としています。
関連論文リスト
- The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - FocusDiffuser: Perceiving Local Disparities for Camouflaged Object Detection [16.41770092932024]
本研究では,カモフラージュされた物体の検出と解釈を,生成モデルがいかに向上させるかを検討するために,新しい拡散モデルであるFocusDiffuserを提案する。
提案実験により,FocusDiffuserは生成的視点から,カモフラージュされた物体検出の課題に効果的に対処できることを示した。
論文 参考訳(メタデータ) (2024-07-18T03:45:12Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in
Adverse Scenes [49.21187418886508]
本論文は,モノTDP(MonoTDP)と呼ばれる悪シーンにおける2つの深度を知覚するモノクル3次元検出モデルを提案する。
まず、制御不能な気象条件を扱うモデルを支援するための適応学習戦略を導入し、様々な劣化要因による劣化を著しく抑制する。
そこで本研究では, シーン深度と物体深度を同時に推定する新たな2つの深度認識モジュールを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:42:02Z) - Aerial Image Object Detection With Vision Transformer Detector (ViTDet) [0.0]
Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-28T02:25:30Z) - Explore Spatio-temporal Aggregation for Insubstantial Object Detection:
Benchmark Dataset and Baseline [16.59161777626215]
Instantial Object Detection (IOD) と呼ばれる, オブジェクトのローカライズを目的とした, 希少な調査作業を行う。
我々は、様々な距離、大きさ、可視性、および異なるスペクトル範囲でキャプチャされたシーンをカバーする600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。
さらに、異なるバックボーンを配置し、時間軸に沿った整合性を活用するために、時間的アグリゲーション損失(STAloss)を精巧に設計するIODのための時間的アグリゲーションフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-23T02:39:09Z) - Filtered-CoPhy: Unsupervised Learning of Counterfactual Physics in Pixel
Space [43.654464513994164]
高次元データ(画像,ビデオ)における因果関係の学習方法を提案する。
我々の手法は、いかなる根拠となる真実の位置や他の対象物やシーン特性の知識や監督も必要としない。
我々は,画素空間における予測のための新しい挑戦的かつ慎重に設計された反実的ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-02-01T12:18:30Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。