論文の概要: DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding
- arxiv url: http://arxiv.org/abs/2511.02495v1
- Date: Tue, 04 Nov 2025 11:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.973534
- Title: DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding
- Title(参考訳): DetectiumFire: 総合的なマルチモーダルデータセットブリッジビジョンと火の理解のための言語
- Authors: Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang,
- Abstract要約: DetectiumFireは、22.5kの高解像度火災関連画像と2.5kの現実世界火災関連ビデオからなる大規模マルチモーダルデータセットである。
データは従来のコンピュータビジョンラベル(例えば、バウンディングボックス)とシーンを記述する詳細なテキストプロンプトの両方で注釈付けされる。
我々は、オブジェクト検出、拡散ベース画像生成、視覚言語推論など、複数のタスクにまたがるDetectiumFireの有用性を検証する。
- 参考スコア(独自算出の注目度): 5.257894673786823
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in multi-modal models have demonstrated strong performance in tasks such as image generation and reasoning. However, applying these models to the fire domain remains challenging due to the lack of publicly available datasets with high-quality fire domain annotations. To address this gap, we introduce DetectiumFire, a large-scale, multi-modal dataset comprising of 22.5k high-resolution fire-related images and 2.5k real-world fire-related videos covering a wide range of fire types, environments, and risk levels. The data are annotated with both traditional computer vision labels (e.g., bounding boxes) and detailed textual prompts describing the scene, enabling applications such as synthetic data generation and fire risk reasoning. DetectiumFire offers clear advantages over existing benchmarks in scale, diversity, and data quality, significantly reducing redundancy and enhancing coverage of real-world scenarios. We validate the utility of DetectiumFire across multiple tasks, including object detection, diffusion-based image generation, and vision-language reasoning. Our results highlight the potential of this dataset to advance fire-related research and support the development of intelligent safety systems. We release DetectiumFire to promote broader exploration of fire understanding in the AI community. The dataset is available at https://kaggle.com/datasets/38b79c344bdfc55d1eed3d22fbaa9c31fad45e27edbbe9e3c529d6e5c4f93890
- Abstract(参考訳): 近年,画像生成や推論などのタスクにおいて,マルチモーダルモデルの性能が向上している。
しかしながら、これらのモデルをファイアドメインに適用することは、高品質なファイアドメインアノテーションを備えた公開データセットが欠如しているため、依然として難しい。
このギャップに対処するために,22.5kの高解像度火災関連画像と2.5kの現実世界火災関連ビデオからなる大規模マルチモーダルデータセットであるDetectiumFireを紹介した。
データは、従来のコンピュータビジョンラベル(例えば、バウンディングボックス)とシーンを記述する詳細なテキストプロンプトの両方で注釈付けされ、合成データ生成や火災リスク推論などの応用が可能になる。
DetectiumFireは、スケール、多様性、データ品質の既存のベンチマークに対する明確なアドバンテージを提供する。
我々は、オブジェクト検出、拡散ベース画像生成、視覚言語推論など、複数のタスクにまたがるDetectiumFireの有用性を検証する。
本研究は,火災関連研究を推進し,インテリジェント安全システムの開発を支援するためのデータセットの可能性を強調した。
我々は、AIコミュニティにおける火の理解のより広範な探索を促進するために、DetectiumFireをリリースします。
データセットはhttps://kaggle.com/datasets/38b79c344bdfc55d1eed3d22fbaa9c31fad45e27edbbe9e3c29d6e5c4f93890で利用可能である。
関連論文リスト
- Uint: Building Uint Detection Dataset [1.2166468091046596]
ファイアシーンデータセットは、堅牢なコンピュータビジョンモデルのトレーニングに不可欠である。
ビルディングユニットを対象とする注釈付きデータはかなり不足している。
ドローンによって捕獲された建築ユニットの注釈付きデータセットを導入し、複数の拡張手法を取り入れた。
論文 参考訳(メタデータ) (2025-08-05T06:36:41Z) - Eyes on the Environment: AI-Driven Analysis for Fire and Smoke Classification, Segmentation, and Detection [3.865779317336744]
火と煙の現象は、自然環境、生態系、世界経済、さらには人間の生活や野生生物に重大な脅威をもたらす。
早期発見、リアルタイム監視、火災の全体的な影響を最小化するための効果的な戦略を実現するための、より高度で高度な技術が求められている。
これらのシステムは、検出や監視など、さまざまなタスクのための熟練した機械学習(ML)メソッドを作成するために、適切に高品質な火と煙のデータが利用可能であることに大きく依存している。
論文 参考訳(メタデータ) (2025-03-17T22:08:02Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Image-Based Fire Detection in Industrial Environments with YOLOv4 [53.180678723280145]
この研究は、AIが火災を検出し、認識し、画像ストリーム上のオブジェクト検出を使用して検出時間を短縮する可能性を検討する。
そこで我々は, YOLOv4オブジェクト検出器をベースとした複数のモデルのトレーニングと評価に使用されてきた複数の公開情報源から, 適切なデータを収集, ラベル付けした。
論文 参考訳(メタデータ) (2022-12-09T11:32:36Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - From Unsupervised to Few-shot Graph Anomaly Detection: A Multi-scale Contrastive Learning Approach [26.973056364587766]
グラフデータからの異常検出は、ソーシャルネットワーク、金融、eコマースなど、多くのアプリケーションにおいて重要なデータマイニングタスクである。
マルチスケールcONtrastive lEarning(略してANEMONE)を用いた新しいフレームワーク, graph Anomaly dEtection フレームワークを提案する。
グラフニューラルネットワークをバックボーンとして、複数のグラフスケール(ビュー)から情報をエンコードすることで、グラフ内のノードのより良い表現を学習する。
論文 参考訳(メタデータ) (2022-02-11T09:45:11Z) - Unsupervised Person Re-Identification with Wireless Positioning under
Weak Scene Labeling [131.18390399368997]
本稿では、弱いシーンラベリングの下で、視覚データと無線位置決めトラジェクトリの両方を用いて、教師なしの人物再識別を探索することを提案する。
具体的には、視覚データと無線情報の相補性をモデル化した、新しい教師なしマルチモーダルトレーニングフレームワーク(UMTF)を提案する。
我々のUMTFには、MMDA(Multimodal Data Association Strategy)とMMGN(Multimodal Graph Neural Network)が含まれている。
論文 参考訳(メタデータ) (2021-10-29T08:25:44Z) - Active Fire Detection in Landsat-8 Imagery: a Large-Scale Dataset and a
Deep-Learning Study [1.3764085113103217]
本稿では,深層学習技術を用いた火災検知のための大規模データセットについて紹介する。
本稿では,様々な畳み込みニューラルネットワークアーキテクチャを用いて手作りアルゴリズムを近似する方法について検討する。
提案されたデータセット、ソースコード、トレーニングされたモデルはGithubで入手できる。
論文 参考訳(メタデータ) (2021-01-09T19:05:03Z) - Uncertainty Aware Wildfire Management [6.997483623023005]
アメリカ合衆国では近年の山火事で生命が失われ、数十億ドルが失われた。
大規模に展開するリソースは限られており、火災の広がりを予測することは困難である。
本稿では,山火事対策のための意思決定論的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。