論文の概要: RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation
- arxiv url: http://arxiv.org/abs/2507.20920v1
- Date: Mon, 28 Jul 2025 15:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.181036
- Title: RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation
- Title(参考訳): RIS-LAD:低高度ドローン画像セグメンテーションのためのベンチマークとモデル
- Authors: Kai Ye, YingShi Luan, Zhudi Chen, Guangyue Meng, Pingyang Dai, Liujuan Cao,
- Abstract要約: Referring ImageHide (RIS)は、自然言語の記述に基づいて特定のオブジェクトを分割することを目的としている。
既存のデータセットとメソッドは、一般的に高高度および静的な画像のために設計されている。
RIS-LADは、低高度ドローン(LAD)のシナリオ用に調整された、最初のきめ細かいRISベンチマークである。
- 参考スコア(独自算出の注目度): 14.203806360052567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring Image Segmentation (RIS), which aims to segment specific objects based on natural language descriptions, plays an essential role in vision-language understanding. Despite its progress in remote sensing applications, RIS in Low-Altitude Drone (LAD) scenarios remains underexplored. Existing datasets and methods are typically designed for high-altitude and static-view imagery. They struggle to handle the unique characteristics of LAD views, such as diverse viewpoints and high object density. To fill this gap, we present RIS-LAD, the first fine-grained RIS benchmark tailored for LAD scenarios. This dataset comprises 13,871 carefully annotated image-text-mask triplets collected from realistic drone footage, with a focus on small, cluttered, and multi-viewpoint scenes. It highlights new challenges absent in previous benchmarks, such as category drift caused by tiny objects and object drift under crowded same-class objects. To tackle these issues, we propose the Semantic-Aware Adaptive Reasoning Network (SAARN). Rather than uniformly injecting all linguistic features, SAARN decomposes and routes semantic information to different stages of the network. Specifically, the Category-Dominated Linguistic Enhancement (CDLE) aligns visual features with object categories during early encoding, while the Adaptive Reasoning Fusion Module (ARFM) dynamically selects semantic cues across scales to improve reasoning in complex scenes. The experimental evaluation reveals that RIS-LAD presents substantial challenges to state-of-the-art RIS algorithms, and also demonstrates the effectiveness of our proposed model in addressing these challenges. The dataset and code will be publicly released soon at: https://github.com/AHideoKuzeA/RIS-LAD/.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自然言語の記述に基づいて特定のオブジェクトを分割することを目的としており、視覚言語理解において重要な役割を担っている。
リモートセンシングアプリケーションの進歩にもかかわらず、低高度ドローン(LAD)のシナリオでのRISはいまだ探索されていない。
既存のデータセットとメソッドは、一般的に高高度および静的な画像のために設計されている。
彼らは多様な視点や高い対象密度など、LADビューのユニークな特性を扱うのに苦労している。
このギャップを埋めるために、私たちはLADシナリオ用に調整された最初の詳細なRISベンチマークであるRIS-LADを提示する。
このデータセットは、現実的なドローン映像から収集された、注意深い注釈付き画像テキストマスク三つ子13,871枚で構成され、小さな、散らばった、多視点のシーンに焦点を当てている。
例えば、小さなオブジェクトによるカテゴリドリフトや、混み合った同クラスのオブジェクトによるオブジェクトドリフトなどだ。
これらの課題に対処するために,セマンティック・アウェア適応推論ネットワーク(SAARN)を提案する。
すべての言語的特徴を均一に注入するのではなく、SAARNは意味情報をネットワークの異なる段階に分解してルートする。
具体的には、カテゴリー指定言語拡張(CDLE)は、初期のエンコーディング中に視覚的特徴をオブジェクトカテゴリと整列させ、適応推論融合モジュール(ARFM)は、複雑なシーンにおける推論を改善するために、スケールにわたって動的にセマンティックキューを選択する。
実験により、RIS-LADは最先端のRISアルゴリズムに重大な課題を示し、これらの課題に対処するために提案したモデルの有効性を示す。
データセットとコードはまもなく公開され、https://github.com/AHideoKuzeA/RIS-LAD/.comで公開される。
関連論文リスト
- DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy [15.729826041347144]
RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。
以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。
本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-02T14:14:35Z) - PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation [9.713215680147583]
パノプティクスのセグメンテーションはコンピュータビジョンの基本課題であり、自動運転車の認識にとって重要な要素である。
最近のマスクトランスフォーマーベースの手法は、標準的なベンチマークでは素晴らしいパフォーマンスを達成しているが、小さなオブジェクト、混み合ったシーン、広範囲のオブジェクトスケールを示すシーンで重大な課題に直面している。
そこで我々は,PanSRを用いたパン光学セグメンテーション手法を提案する。PanSRは,インスタンスのマージを効果的に軽減し,小さなオブジェクト検出を向上し,混み合うシーンにおけるパフォーマンスを向上し,挑戦的なLaRSベンチマーク上での最先端のPQを,Cityscapesで最先端のパフォーマンスに到達しつつ,注目すべき+3.4PQ向上を実現した。
論文 参考訳(メタデータ) (2024-12-13T22:12:37Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。