論文の概要: InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition
- arxiv url: http://arxiv.org/abs/2505.15818v1
- Date: Wed, 21 May 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.833379
- Title: InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition
- Title(参考訳): InstructSAM: インストラクション指向リモートセンシングオブジェクト認識のためのトレーニングフリーフレームワーク
- Authors: Yijie Zheng, Weijie Wu, Qingyun Li, Xuehui Wang, Xu Zhou, Aiai Ren, Jun Shen, Long Zhao, Guoqing Li, Xue Yang,
- Abstract要約: InstructSAMは、命令駆動オブジェクト認識のためのトレーニング不要のフレームワークである。
我々は、地球観測のための最初のインストラクトCDSベンチマークであるEarthInstructを紹介する。
- 参考スコア(独自算出の注目度): 19.74617806521803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-Guided object recognition in remote sensing imagery is crucial for large-scale mapping and automated data annotation. However, existing open-vocabulary and visual grounding methods rely on explicit category cues, limiting their ability to handle complex or implicit queries that require advanced reasoning. To address this issue, we introduce a new suite of tasks, including Instruction-Oriented Object Counting, Detection, and Segmentation (InstructCDS), covering open-vocabulary, open-ended, and open-subclass scenarios. We further present EarthInstruct, the first InstructCDS benchmark for earth observation. It is constructed from two diverse remote sensing datasets with varying spatial resolutions and annotation rules across 20 categories, necessitating models to interpret dataset-specific instructions. Given the scarcity of semantically rich labeled data in remote sensing, we propose InstructSAM, a training-free framework for instruction-driven object recognition. InstructSAM leverages large vision-language models to interpret user instructions and estimate object counts, employs SAM2 for mask proposal, and formulates mask-label assignment as a binary integer programming problem. By integrating semantic similarity with counting constraints, InstructSAM efficiently assigns categories to predicted masks without relying on confidence thresholds. Experiments demonstrate that InstructSAM matches or surpasses specialized baselines across multiple tasks while maintaining near-constant inference time regardless of object count, reducing output tokens by 89% and overall runtime by over 32% compared to direct generation approaches. We believe the contributions of the proposed tasks, benchmark, and effective approach will advance future research in developing versatile object recognition systems.
- Abstract(参考訳): リモートセンシング画像における言語誘導オブジェクト認識は,大規模マッピングや自動データアノテーションに不可欠である。
しかし、既存のオープンボキャブラリとビジュアルグラウンド方式は明示的なカテゴリキューに依存しており、高度な推論を必要とする複雑なクエリや暗黙的なクエリを扱う能力を制限する。
この問題に対処するために、インストラクション指向オブジェクトカウント、検出、セグメンテーション(Instruction-Oriented Object Counting, Detection, and Segmentation, InstructCDS)など、オープン語彙、オープンエンド、オープンサブクラスのシナリオをカバーする新しいタスクスイートを紹介します。
我々はさらに、地球観測のための最初のインストラクトCDSベンチマークであるEarthInstructを提示する。
データセット固有の命令を解釈するためにモデルを必要とする、20のカテゴリにわたるさまざまな空間解像度とアノテーションルールを備えた2つの多様なリモートセンシングデータセットから構築されている。
リモートセンシングにおける意味豊かなラベル付きデータの不足を踏まえ,インストラクトSAMを提案する。
InstructSAMは、大きな視覚言語モデルを利用してユーザー命令を解釈し、オブジェクト数を推定し、マスクの提案にSAM2を使用し、二進整数プログラミング問題としてマスクラベル割り当てを定式化する。
意味的類似性をカウント制約と統合することにより、InstructSAMは信頼性しきい値に頼ることなく、予測マスクにカテゴリを効率的に割り当てる。
実験では、InstructSAMは、オブジェクト数に関係なくほぼ一貫した推論時間を維持しながら、複数のタスクにまたがる特別なベースラインをマッチまたは超過し、アウトプットトークンを89%削減し、直接生成アプローチと比較して、全体のランタイムを32%以上削減している。
提案したタスク,ベンチマーク,効果的なアプローチの貢献は,多目的物体認識システム開発における今後の研究を前進させるものと信じている。
関連論文リスト
- Ambiguity Resolution in Text-to-Structured Data Mapping [10.285528620331696]
自然言語における曖昧さは、構造化されたデータマッピングに対する正確なテキストを実現するための重要な障害である。
本稿では,概念不足の予測を通じて曖昧なエージェントツールを呼び出し,大規模言語モデル(LLM)の性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:39:30Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - IntenDD: A Unified Contrastive Learning Approach for Intent Detection
and Discovery [12.905097743551774]
バックボーンを符号化する共有発話を利用した統一手法であるIntenDDを提案する。
IntenDDは完全に教師なしのコントラスト学習戦略を用いて表現学習を行う。
当社のアプローチは,3つのタスクのすべてにおいて,競争上のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2023-10-25T16:50:24Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Training-free Object Counting with Prompts [12.358565655046977]
既存のアプローチは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しています。
分割問題としてカウントタスクを扱う訓練不要なオブジェクトカウンタを提案する。
論文 参考訳(メタデータ) (2023-06-30T13:26:30Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。