論文の概要: DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models
- arxiv url: http://arxiv.org/abs/2508.07714v1
- Date: Mon, 11 Aug 2025 07:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.993805
- Title: DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models
- Title(参考訳): DoorDet:オブジェクト検出と大規模言語モデルによる半自動多言語ドア検出データセット
- Authors: Licheng Zhang, Bach Le, Naveed Akhtar, Tuan Ngo,
- Abstract要約: 最小限の手作業でマルチクラスドア検出データセットを構築するための半自動パイプラインを提案する。
提案手法は,フロアプラン解析におけるニューラルネットワークのベンチマークに適したデータセットを作成しながら,アノテーションのコストを大幅に削減する。
この研究は、複雑な実世界の領域における効率的なデータセット構築のために、ディープラーニングとマルチモーダル推論を組み合わせる可能性を示す。
- 参考スコア(独自算出の注目度): 26.43839593818403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection and classification of diverse door types in floor plans drawings is critical for multiple applications, such as building compliance checking, and indoor scene understanding. Despite their importance, publicly available datasets specifically designed for fine-grained multi-class door detection remain scarce. In this work, we present a semi-automated pipeline that leverages a state-of-the-art object detector and a large language model (LLM) to construct a multi-class door detection dataset with minimal manual effort. Doors are first detected as a unified category using a deep object detection model. Next, an LLM classifies each detected instance based on its visual and contextual features. Finally, a human-in-the-loop stage ensures high-quality labels and bounding boxes. Our method significantly reduces annotation cost while producing a dataset suitable for benchmarking neural models in floor plan analysis. This work demonstrates the potential of combining deep learning and multimodal reasoning for efficient dataset construction in complex real-world domains.
- Abstract(参考訳): ビルコンプライアンスチェックや屋内シーン理解など,複数のアプリケーションにおいて,床図作成における多様なドアタイプの検出と分類が重要となる。
その重要性にもかかわらず、きめ細かいマルチクラスドア検出用に特別に設計された公開データセットは依然として不足している。
本研究では,最先端のオブジェクト検出器と大規模言語モデル(LLM)を利用して,手作業の少ないマルチクラスドア検出データセットを構築する半自動パイプラインを提案する。
ドアは、ディープオブジェクト検出モデルを用いて、まず統一されたカテゴリとして検出される。
次に、LLMは、その視覚的特徴とコンテキスト的特徴に基づいて、検出された各インスタンスを分類する。
最後に、Human-in-the-loopステージは高品質なラベルとバウンディングボックスを保証する。
提案手法は,フロアプラン解析におけるニューラルネットワークのベンチマークに適したデータセットを作成しながら,アノテーションのコストを大幅に削減する。
この研究は、複雑な実世界の領域における効率的なデータセット構築のために、ディープラーニングとマルチモーダル推論を組み合わせる可能性を示す。
関連論文リスト
- Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - End-to-End Multi-Object Tracking with Global Response Map [23.755882375664875]
画像シーケンス/映像を入力とし、学習対象の位置と追跡対象を直接出力する、完全にエンドツーエンドのアプローチを提案する。
具体的には,提案した多目的表現戦略により,グローバル応答マップをフレーム上で正確に生成することができる。
MOT16 と MOT17 のベンチマークによる実験結果から,提案したオンライントラッカーは,いくつかのトラッキング指標において最先端の性能を達成した。
論文 参考訳(メタデータ) (2020-07-13T12:30:49Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。