Fugu-MT 論文翻訳(概要): RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts

論文の概要: RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts

arxiv url: http://arxiv.org/abs/2412.05679v2
Date: Tue, 10 Dec 2024 02:23:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 13:39:40.507366
Title: RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts
Title（参考訳）: RSUniVLM: エキスパートの粒度指向混合による遠隔センシングのための統一視覚言語モデル
Authors: Xu Liu, Zhouhui Lian,
Abstract要約: 複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
参考スコア（独自算出の注目度）: 17.76606110070648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote Sensing Vision-Language Models (RS VLMs) have made much progress in the tasks of remote sensing (RS) image comprehension. While performing well in multi-modal reasoning and multi-turn conversations, the existing models lack pixel-level understanding and struggle with multi-image inputs. In this work, we propose RSUniVLM, a unified, end-to-end RS VLM designed for comprehensive vision understanding across multiple granularity, including image-level, region-level, and pixel-level tasks. RSUniVLM also performs effectively in multi-image analysis, with instances of change detection and change captioning. To enhance the model's ability to capture visual information at different levels without increasing model size, we design a novel architecture called Granularity-oriented Mixture of Experts to constraint the model to about 1 billion parameters. We also construct a large-scale RS instruction-following dataset based on a variety of existing datasets in both RS and general domain, encompassing various tasks such as object localization, visual question answering, and semantic segmentation. Substantial experiments have been conducted to validate the superiority of the proposed RSUniVLM up to state-of-the-art across various RS tasks. Code and model will be available at \href{https://github.com/xuliu-cyber/RSUniVLM}{here}.
Abstract（参考訳）: リモートセンシングビジョンランゲージモデル(RS VLM)は、リモートセンシング(RS)画像理解のタスクにおいて大きな進歩を遂げている。マルチモーダル推論やマルチターン会話ではうまく機能するが、既存のモデルではピクセルレベルの理解が欠如し、マルチイメージ入力に苦戦している。本研究では、画像レベル、領域レベル、ピクセルレベルのタスクを含む複数の粒度にわたる包括的視覚理解のために設計された、統一されたエンドツーエンドのRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ分析でも効果的に機能する。モデルのサイズを増大させることなく、異なるレベルで視覚情報をキャプチャする能力を高めるために、我々は、モデルを約10億のパラメータに制約する、Granularity-oriented Mixture of Expertsと呼ばれる新しいアーキテクチャを設計する。また、オブジェクトのローカライゼーション、視覚的質問応答、セマンティックセグメンテーションといった様々なタスクを含む、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模RS命令追従データセットを構築した。提案したRSUniVLMの様々なRSタスクにおける最先端技術への優位性を検証するための基礎実験が実施されている。コードとモデルは \href{https://github.com/xuliu-cyber/RSUniVLM}{here} で入手できる。

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。 RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。これは視覚的理解と高度な分析タスクの両方に有効である。
論文参考訳（メタデータ） (2025-07-28T12:39:33Z)
Visual Question Answering on Multiple Remote Sensing Image Modalities [1.6932802756478726]
リモートセンシングのような多くの分野において、視覚的特徴抽出のステップは、異なる画像のモダリティを活用することで大きな恩恵を受けることができる。 TAMMIと呼ばれる新しいVQAデータセットを導入し、3つの異なるモードで記述されたシーンについて多様な質問を行う。また,視覚言語変換器であるVisualBERTをベースとしたMM-RSVQAモデルを提案し,複数の画像のモダリティとテキストを効果的に組み合わせた。
論文参考訳（メタデータ） (2025-05-21T11:42:47Z)
GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。 Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文参考訳（メタデータ） (2025-03-16T12:48:17Z)
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。 UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2024-12-30T06:34:18Z)
MMO-IG: Multi-Class and Multi-Scale Object Image Generation for Remote Sensing [12.491684385808902]
MMO-IGは、グローバルな面とローカルな面から、教師付きオブジェクトラベルでRS画像を生成するように設計されている。 MMO間の複雑な相互依存性を考慮すると、空間的相互依存知識グラフを構築する。 MMO-IGは、高密度なMMO教師付きラベルを持つRS画像に対して優れた生成能力を示す。
論文参考訳（メタデータ） (2024-12-18T10:19:12Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。 EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文参考訳（メタデータ） (2024-07-18T15:35:00Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。 MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。 PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文参考訳（メタデータ） (2022-05-09T06:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。