論文の概要: Breaking the Box: Enhancing Remote Sensing Image Segmentation with Freehand Sketches
- arxiv url: http://arxiv.org/abs/2503.12191v1
- Date: Sat, 15 Mar 2025 16:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:23.188174
- Title: Breaking the Box: Enhancing Remote Sensing Image Segmentation with Freehand Sketches
- Title(参考訳): 箱を割る:フリーハンドでリモートセンシング画像のセグメンテーションを強化
- Authors: Ying Zang, Yuncan Gao, Jiangi Zhang, Yuangi Hu, Runlong Cao, Lanyun Zhu, Qi Zhu, Deyi Ji, Renjun Xu, Tianrun Chen,
- Abstract要約: この研究は3つの重要な貢献を通じて、リモートセンシング画像のためのゼロショットインタラクティブセグメンテーションを前進させる。
まず、スケッチに基づく新しいプロンプト手法を提案し、従来のポイントやボックスのプロンプトを越えながら、直感的にオブジェクトのアウトライン化を可能にする。
第2に、人間のスケッチとリモートセンシング画像とをペアリングする最初のデータセットを導入し、将来の研究のためのベンチマークを設定します。
- 参考スコア(独自算出の注目度): 9.710234329150998
- License:
- Abstract: This work advances zero-shot interactive segmentation for remote sensing imagery through three key contributions. First, we propose a novel sketch-based prompting method, enabling users to intuitively outline objects, surpassing traditional point or box prompts. Second, we introduce LTL-Sensing, the first dataset pairing human sketches with remote sensing imagery, setting a benchmark for future research. Third, we present LTL-Net, a model featuring a multi-input prompting transport module tailored for freehand sketches. Extensive experiments show our approach significantly improves segmentation accuracy and robustness over state-of-the-art methods like SAM, fostering more intuitive human-AI collaboration in remote sensing analysis and enhancing its applications.
- Abstract(参考訳): この研究は3つの重要な貢献を通じて、リモートセンシング画像のためのゼロショットインタラクティブセグメンテーションを前進させる。
まず、スケッチに基づく新しいプロンプト手法を提案し、従来のポイントやボックスのプロンプトを越えながら、直感的にオブジェクトのアウトライン化を可能にする。
第2に,人間のスケッチとリモートセンシング画像を組み合わせた最初のデータセットであるLTL-Sensingを導入し,今後の研究のベンチマークを設定する。
第3に,フリーハンドスケッチに適したマルチインプット・トランスポートモジュールを特徴とするLTL-Netを提案する。
大規模な実験により,SAMのような最先端の手法よりもセグメンテーション精度とロバスト性を大幅に向上し,リモートセンシング分析における人間とAIのより直感的なコラボレーションを促進し,その応用性を高めた。
関連論文リスト
- Let Human Sketches Help: Empowering Challenging Image Segmentation Task with Freehand Sketches [11.361057754047344]
本稿では,革新的なスケッチ誘導型対話型セグメンテーションフレームワークを提案する。
スケッチ入力が既存の反復分割法の性能を大幅に改善できることを実証する。
また、カモフラージュされたオブジェクト検出のための最初のフリーハンドスケッチデータセットであるKOSCamo+を提示する。
論文 参考訳(メタデータ) (2025-01-31T17:26:40Z) - BimArt: A Unified Approach for the Synthesis of 3D Bimanual Interaction with Articulated Objects [70.20706475051347]
BimArtは3Dバイマニュアルハンドインタラクションを音声オブジェクトと合成するための新しい生成手法である。
まず, 物体軌道上に配置された距離ベースの接触マップを, 音声認識特徴表現を用いて生成する。
学習された接触は手の動き生成装置のガイドに使われ、物体の動きや調音のための多彩で現実的なバイマニュアルの動きが生成されます。
論文 参考訳(メタデータ) (2024-12-06T14:23:56Z) - Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars [47.61442517627826]
本稿では,3次元ガウススプラッティング(GS)と単一画像入力と手を相互作用するアニマタブルアバターを提案する。
提案手法は大規模なInterHand2.6Mデータセットの広範な実験により検証される。
論文 参考訳(メタデータ) (2024-10-11T14:14:51Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization [8.678089483952474]
本研究では,リモートセンシング画像を対象としたゼロショット・スケッチベース検索手法を提案する。
マルチレベルの特徴抽出、自己アテンション誘導トークン化とフィルタリング、モダリティ間のアテンション更新が採用されている。
本手法は,既存のスケッチベースリモートセンシング画像検索技術よりも優れている。
論文 参考訳(メタデータ) (2024-02-03T13:11:14Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - A Zero-Shot Sketch-based Inter-Modal Object Retrieval Scheme for Remote
Sensing Images [26.48516754642218]
本稿では,RSデータのスケッチベース表現を用いたモーダル三重項に基づくゼロショット検索手法を提案する。
提案手法は、スケッチ表現が画像の極端にプロトタイプである場合でも効率よく動作する。
論文 参考訳(メタデータ) (2020-08-12T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。