Fugu-MT 論文翻訳(概要): From Word to Sentence: A Large-Scale Multi-Instance Dataset for Open-Set Aerial Detection

論文の概要: From Word to Sentence: A Large-Scale Multi-Instance Dataset for Open-Set Aerial Detection

arxiv url: http://arxiv.org/abs/2505.03334v1
Date: Tue, 06 May 2025 09:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.294232
Title: From Word to Sentence: A Large-Scale Multi-Instance Dataset for Open-Set Aerial Detection
Title（参考訳）: 単語から文へ:オープンセット空中検出のための大規模マルチインスタンスデータセット
Authors: Guoting Wei, Yu Liu, Xia Yuan, Xizhe Xue, Linlin Guo, Yifan Yang, Chunxia Zhao, Zongwen Bai, Haokui Zhang, Rong Xiao,
Abstract要約: 本稿では,単語から句,究極的には文までの3段階の言語指導を含む,大規模言語誘導型オープンセット空中検出データセットを提案する。また,航空画像の多様なシーンアノテーションを処理可能な自動アノテーションパイプラインであるOS-W2S Label Engineを提案する。
参考スコア（独自算出の注目度）: 16.485207362187772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, language-guided open-world aerial object detection has gained significant attention due to its better alignment with real-world application needs. However, due to limited datasets, most existing language-guided methods primarily focus on vocabulary, which fails to meet the demands of more fine-grained open-world detection. To address this limitation, we propose constructing a large-scale language-guided open-set aerial detection dataset, encompassing three levels of language guidance: from words to phrases, and ultimately to sentences. Centered around an open-source large vision-language model and integrating image-operation-based preprocessing with BERT-based postprocessing, we present the OS-W2S Label Engine, an automatic annotation pipeline capable of handling diverse scene annotations for aerial images. Using this label engine, we expand existing aerial detection datasets with rich textual annotations and construct a novel benchmark dataset, called Multi-instance Open-set Aerial Dataset (MI-OAD), addressing the limitations of current remote sensing grounding data and enabling effective open-set aerial detection. Specifically, MI-OAD contains 163,023 images and 2 million image-caption pairs, approximately 40 times larger than comparable datasets. We also employ state-of-the-art open-set methods from the natural image domain, trained on our proposed dataset, to validate the model's open-set detection capabilities. For instance, when trained on our dataset, Grounding DINO achieves improvements of 29.5 AP_{50} and 33.7 Recall@10 for sentence inputs under zero-shot transfer conditions. Both the dataset and the label engine will be released publicly.
Abstract（参考訳）: 近年,言語によるオープンワールドな物体検出が注目されている。しかし、データセットが限られているため、既存の言語誘導手法のほとんどは語彙に重点を置いており、よりきめ細かいオープンワールド検出の要求を満たすことができない。この制限に対処するため,大規模言語誘導型オープンセット空中検出データセットの構築を提案し,単語から句,そして文までの3段階の言語指導を網羅した。オープンソースの大規模視覚言語モデルを中心に、画像操作に基づく事前処理とBERTベースの後処理を統合することで、航空画像の多様なシーンアノテーションを処理できる自動アノテーションパイプラインであるOS-W2S Label Engineを提案する。このラベルエンジンを用いて、既存の空中検出データセットをリッチテキストアノテーションで拡張し、Multi-instance Open-set Aerial Dataset (MI-OAD)と呼ばれる新しいベンチマークデータセットを構築する。具体的には、MI-OADには163,023のイメージと200万のイメージキャプチャペアが含まれている。また、提案したデータセットに基づいてトレーニングされた自然言語領域からの最先端のオープンセット手法を用いて、モデルのオープンセット検出機能を検証する。例えば、データセットでトレーニングされた場合、Grounding DINOは、ゼロショット転送条件下での文入力に対して29.5 AP_{50}と33.7 Recall@10の改善を実現している。データセットとラベルエンジンの両方が公開される。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文参考訳（メタデータ） (2025-02-12T07:19:36Z)
Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing [19.344890308208555]
本稿では,地図を外部データソースとして統合することで,遠隔センシングのための視覚言語データセットを強化する手法を提案する。本稿では、衛星画像、地図、メタデータ、テキストアノテーションを組み込んだマルチモーダルデータセットであるfMoW-mmを紹介する。
論文参考訳（メタデータ） (2025-01-24T20:13:29Z)
OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文参考訳（メタデータ） (2024-07-10T17:05:49Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文参考訳（メタデータ） (2024-03-11T09:20:40Z)
Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文参考訳（メタデータ） (2023-12-19T18:59:53Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文参考訳（メタデータ） (2023-05-25T17:43:05Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。