論文の概要: LLaVA-LE: Large Language-and-Vision Assistant for Lunar Exploration
- arxiv url: http://arxiv.org/abs/2603.24696v1
- Date: Wed, 25 Mar 2026 18:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.929185
- Title: LLaVA-LE: Large Language-and-Vision Assistant for Lunar Exploration
- Title(参考訳): LLaVA-LE:月面探査のための大規模言語・視覚アシスタント
- Authors: Gokce Inal, Pouyan Navard, Alper Yilmaz,
- Abstract要約: LLaVA-LEは月面と地表面のキャラクタリゼーションに特化した視覚言語モデルである。
LUCIDデータセットは96kの高解像度のパンクロマティック画像と、月の地形を詳細に記述したキャプションで構成されている。
LLaVA-LEはベースLLaVAより3.3倍、ステージ1モデルより2.1倍、推算スコアは1.070である。
- 参考スコア(独自算出の注目度): 5.671312847528642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal vision-language models (VLMs) have enabled joint reasoning over visual and textual information, yet their application to planetary science remains largely unexplored. A key hindrance is the absence of large-scale datasets that pair real planetary imagery with detailed scientific descriptions. In this work, we introduce LLaVA-LE (Large Language-and-Vision Assistant for Lunar Exploration), a vision-language model specialized for lunar surface and subsurface characterization. To enable this capability, we curate a new large-scale multimodal lunar dataset, LUCID (LUnar Caption Image Dataset) consisting of 96k high-resolution panchromatic images paired with detailed captions describing lunar terrain characteristics, and 81k question-answer (QA) pairs derived from approximately 20k images in the LUCID dataset. Leveraging this dataset, we fine-tune LLaVA using a two-stage training curriculum: (1) concept alignment for domain-specific terrain description, and (2) instruction-tuned visual question answering. We further design evaluation benchmarks spanning multiple levels of reasoning complexity relevant to lunar terrain analysis. Evaluated against GPT and Gemini judges, LLaVA-LE achieves a 3.3x overall performance gain over Base LLaVA and 2.1x over our Stage 1 model, with a reasoning score of 1.070, exceeding the judge's own reference score, highlighting the effectiveness of domain-specific multimodal data and instruction tuning to advance VLMs in planetary exploration. Code is available at https://github.com/OSUPCVLab/LLaVA-LE.
- Abstract(参考訳): マルチモーダル視覚言語モデル(VLM)の最近の進歩により、視覚情報とテキスト情報に関する共同推論が可能になったが、惑星科学への応用はいまだに未解明のままである。
重要な障害は、実際の惑星画像と詳細な科学的記述を組み合わせた大規模なデータセットがないことである。
本研究ではLLaVA-LE(Large Language-and-Vision Assistant for Lunar Exploration)を紹介する。
この機能を実現するため,LUCIDデータセットの約20k画像から得られた81k問合せ(QA)ペアと,月面地形の特徴を記述した詳細なキャプションと組み合わせた96k高解像度のパンクロマティック画像からなる,大規模マルチモーダル月面データセットLUCID(LUnar Caption Image Dataset)をキュレートした。
このデータセットを利用して、2段階の学習カリキュラムを用いてLLaVAを微調整する:(1)ドメイン固有の地形記述のための概念的アライメント、(2)指示調整された視覚的質問応答。
さらに,月面地形解析に関連する複数の推論複雑性のレベルにまたがる評価ベンチマークを設計する。
LLaVA-LE は GPT および Gemini の審査員に対して評価され,我々のステージ1 モデルにおけるベース LLaVA と 2.1x よりも3.3倍の性能向上を達成した。
コードはhttps://github.com/OSUPCVLab/LLaVA-LEで入手できる。
関連論文リスト
- TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation [71.39112735716172]
TerraScopeは、ピクセル地上の地理空間的推論を提供する統合視覚言語モデルである。
また,画素接地による空間的推論のための最初のベンチマークであるTerraScope-Benchを提案する。
論文 参考訳(メタデータ) (2026-03-19T15:38:02Z) - UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding [4.817647738745087]
UAVBenchとUAVIT-1Mは低高度視覚言語タスクにおけるMLLMの能力の評価と改善を目的としている。
UAVBenchは、43の試験ユニットと、画像レベルと領域レベルの10タスクにわたる966kの高品質なデータサンプルで構成されている。
UAVIT-1Mは、約124万の多様な命令で構成され、789万のマルチシーン画像と、11の異なるタスクを持つ約2,000種類の空間解像度をカバーしている。
論文 参考訳(メタデータ) (2026-03-15T12:04:23Z) - SD-VLM: Spatial Measuring and Understanding with Depth-Encoded Vision-Language Models [75.64836077468722]
視覚言語モデル(VLM)は2次元意味的視覚的理解において優れているが、3次元空間的関係について定量的に推論する能力はいまだ未解明のままである。
VLMの基本空間知覚能力を大幅に向上させる新しいフレームワークであるSD-VLMを提案する。
我々はSD-VLMを訓練した。これは強力な一般化VLMであり、より優れた空間的測定と理解能力を示す。
論文 参考訳(メタデータ) (2025-09-22T12:08:12Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Open3D-VQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space [38.482463743451625]
本稿では,空から見た複雑な空間関係を推論するMLLMの能力を評価するための新しいベンチマークであるOpen3D-VQAを提案する。
このベンチマークは、7つの一般的な空間的推論タスクにまたがる73kのQAペアで構成されている。
論文 参考訳(メタデータ) (2025-03-14T05:35:38Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - LuSNAR:A Lunar Segmentation, Navigation and Reconstruction Dataset based on Muti-sensor for Autonomous Exploration [2.3011380360879237]
環境認識とナビゲーションアルゴリズムが月探査の基盤となっている。
既存の月のデータセットのほとんどは、単一のタスクをターゲットにしています。
本稿では,マルチタスク,マルチシーン,マルチラベルのベンチマークデータセットLuSNARを提案する。
論文 参考訳(メタデータ) (2024-07-09T02:47:58Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。