論文の概要: An Efficient and Effective Encoder Model for Vision and Language Tasks in the Remote Sensing Domain
- arxiv url: http://arxiv.org/abs/2512.15531v1
- Date: Wed, 17 Dec 2025 15:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.043764
- Title: An Efficient and Effective Encoder Model for Vision and Language Tasks in the Remote Sensing Domain
- Title(参考訳): リモートセンシング領域における視覚・言語課題のための効率的なエンコーダモデル
- Authors: João Daniel Silva, Joao Magalhaes, Devis Tuia, Bruno Martins,
- Abstract要約: 大規模ビジョンと言語モデル(LVLM)は、コンピュータビジョンと自然言語処理の交差点における複数のタスクに対処することができる。
LVLMの使用とトレーニングのコストは、パラメータの多さから高い。
本稿では,パラメータ数を抑えながら,マルチタスク学習を効果的に処理できるモデルを提案する。
- 参考スコア(独自算出の注目度): 15.126182274242375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remote sensing community has recently seen the emergence of methods based on Large Vision and Language Models (LVLMs) that can address multiple tasks at the intersection of computer vision and natural language processing. To fully exploit the potential of such models, a significant focus has been given to the collection of large amounts of training data that cover multiple remote sensing-specific tasks, such as image captioning or visual question answering. However, the cost of using and training LVLMs is high, due to the large number of parameters. While multiple parameter-efficient adaptation techniques have been explored, the computational costs of training and inference with these models can remain prohibitive for most institutions. In this work, we explore the use of encoder-only architectures and propose a model that can effectively address multi-task learning while remaining compact in terms of the number of parameters. In particular, our model tackles combinations of tasks that are not typically explored in a unified model: the generation of text from remote sensing images and cross-modal retrieval. The results of our GeoMELT model - named from Multi-task Efficient Learning Transformer - in established benchmarks confirm the efficacy and efficiency of the proposed approach.
- Abstract(参考訳): リモートセンシングコミュニティでは、コンピュータビジョンと自然言語処理の交差点で複数のタスクに対処できるLVLM(Large Vision and Language Models)に基づいた手法が最近出現している。
このようなモデルの可能性を完全に活用するために、画像キャプションや視覚的質問応答など、複数のリモートセンシング固有のタスクをカバーする大量のトレーニングデータの収集に重点が置かれている。
しかし,LVLMの使用とトレーニングのコストは,パラメータの多さから高い。
複数のパラメータ効率適応手法が検討されているが、これらのモデルに対するトレーニングと推論の計算コストは、ほとんどの機関で禁じられている。
本研究では,エンコーダのみのアーキテクチャの利用について検討し,パラメータ数を抑えながらマルチタスク学習を効果的に処理できるモデルを提案する。
特に,本モデルでは,リモートセンシング画像からのテキスト生成やモーダル間検索といった,一般的には統一されたモデルでは探索されないタスクの組み合わせに対処する。
提案手法の有効性と有効性を確認するため,GeoMELTモデル(マルチタスク能率学習変換器から名付けられた)が確立されたベンチマークで得られた。
関連論文リスト
- Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - Beyond CNNs: Efficient Fine-Tuning of Multi-Modal LLMs for Object Detection on Low-Data Regimes [0.0]
我々は,画像中の人工テキストオーバーレイ検出の課題に対して,従来のCNN,ゼロショット事前訓練型マルチモーダルLLM,微調整型マルチモーダルLLMを比較した。
本研究の重要な貢献は,LLMを極めて限られたデータで効果的に微調整し,最大36%の精度向上を達成できることである。
私たちの研究は、ビジョンと言語をブリッジし、効率的なクロスモーダル学習戦略に関する新たな洞察を提供するという、より広範な取り組みに寄与します。
論文 参考訳(メタデータ) (2025-10-03T18:53:18Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。