論文の概要: PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2604.15670v1
- Date: Fri, 17 Apr 2026 03:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.72792
- Title: PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation
- Title(参考訳): PixDLM:UAV推論セグメンテーションのためのデュアルパスマルチモーダル言語モデル
- Authors: Shuyan Ke, Yifan Mei, Changli Wu, Yonghan Zheng, Jiayi Ji, Liujuan Cao, Rongrong Ji,
- Abstract要約: 推論セグメンテーションは地上のシーンからリモートセンシング画像へと拡張されているが、UAVデータは異なる課題を提起している。
UAV推論タスクを定義し,そのセマンティック要件を3次元(空間,属性,シーンレベルの推論)に整理する。
DRSegはUAV推論セグメンテーションのための大規模ベンチマークであり、Chain-of-Thought QA監督と組み合わせた10kの高解像度空中画像を含む。
- 参考スコア(独自算出の注目度): 71.53011159355401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning segmentation has recently expanded from ground-level scenes to remote-sensing imagery, yet UAV data poses distinct challenges, including oblique viewpoints, ultra-high resolutions, and extreme scale variations. To address these issues, we formally define the UAV Reasoning Segmentation task and organize its semantic requirements into three dimensions: Spatial, Attribute, and Scene-level reasoning. Based on this formulation, we construct DRSeg, a large-scale benchmark for UAV reasoning segmentation, containing 10k high-resolution aerial images paired with Chain-of-Thought QA supervision across all three reasoning types. As a benchmark companion, we introduce PixDLM, a simple yet effective pixel-level multimodal language model that serves as a unified baseline for this task. Experiments on DRSeg establish strong baseline results and highlight the unique challenges of UAV reasoning segmentation, providing a solid foundation for future research.
- Abstract(参考訳): 推論セグメンテーションは、最近、地上のシーンからリモートセンシング画像へと拡張されているが、UAVデータは、斜めの視点、超高解像度、極端なスケールのバリエーションなど、異なる課題を提起している。
これらの課題に対処するため、UAV推論セグメンテーションタスクを正式に定義し、そのセグメンテーション要件を空間、属性、シーンレベルの推論の3次元に整理する。
この定式化に基づいて、我々は3つの推論タイプにまたがって、Chain-of-Thought QA監督と組み合わせた10kの高分解能空中画像を含む、UAV推論セグメンテーションの大規模ベンチマークであるDRSegを構築した。
ベンチマークコンパニオンとして、このタスクの統一ベースラインとして機能する、単純で効果的な画素レベルのマルチモーダル言語モデルPixDLMを導入する。
DRSegの実験は強力なベースライン結果を確立し、UAV推論セグメンテーションのユニークな課題を強調し、将来の研究の確かな基盤を提供する。
関連論文リスト
- UAVReason: A Unified, Large-Scale Benchmark for Multimodal Aerial Scene Reasoning and Generation [22.090256033688124]
UAVReasonは,Nadir-view UAVシナリオ専用の,最初の大規模マルチモーダルベンチマークである。
273K以上のVQA(Visual Question Answering)ペアを統合し、詳細なキャプションを持つ23.6Kのシングルフレーム、68.2Kの2フレームの時間シーケンス、および188.8Kのクロスモーダル生成サンプルを含む。
ベンチマークでは、空間的および時間的軸にわたる22種類の推論タイプを調査し、同時にRGB、深さ、セグメンテーションのモダリティにわたる高忠実度生成を評価した。
論文 参考訳(メタデータ) (2026-04-07T03:23:30Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation [11.762545584252052]
本稿では,レポート生成,VQA,マルチパラダイムセグメンテーションをサポートする統合された3次元医療マルチモーダルモデルを提案する。
MedVL-SAM2は、画像レベルの推論とピクセルレベルの認識を3D医療画像用に調整された凝集性アーキテクチャによって統合する。
我々の統合アーキテクチャは、レポート生成、VQA、複数の3Dセグメンテーションタスクにまたがって最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:21:00Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - UAVScenes: A Multi-Modal Dataset for UAVs [45.752766099526525]
UAVScenesは2Dと3Dの両方のモードでさまざまなタスクをベンチマークするために設計された大規模なデータセットである。
我々は、フレームワイド画像とLiDARポイントクラウドの両方に対して、手動でラベル付けされたセマンティックアノテーションを提供することにより、このデータセットを強化する。
これらの追加により、セグメンテーション、深さ推定、6-DoFローカライゼーション、位置認識、新しいビュー合成など、幅広いUAV認識タスクが可能になる。
論文 参考訳(メタデータ) (2025-07-30T06:29:52Z) - RIS-LAD: A Benchmark and Model for Referring Low-Altitude Drone Image Segmentation [26.836547579041067]
Referring ImageHide (RIS)は、自然言語の記述に基づいて特定のオブジェクトを分割することを目的としている。
既存のデータセットとメソッドは、一般的に高高度および静的な画像のために設計されている。
RIS-LADは、低高度ドローン(LAD)のシナリオ用に調整された、最初のきめ細かいRISベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T15:21:03Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。