論文の概要: Adapting a Foundation Model for Space-based Tasks
- arxiv url: http://arxiv.org/abs/2408.05924v1
- Date: Mon, 12 Aug 2024 05:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:45:05.053339
- Title: Adapting a Foundation Model for Space-based Tasks
- Title(参考訳): 空間的課題に対する基礎モデルの適用
- Authors: Matthew Foutter, Praneet Bhoj, Rohan Sinha, Amine Elhafsi, Somrita Banerjee, Christopher Agia, Justin Kruger, Tommaso Guffanti, Daniele Gammelli, Simone D'Amico, Marco Pavone,
- Abstract要約: 宇宙ロボティクスの将来において、宇宙ベースのアプリケーションに適応した基礎モデルの使用を動機付ける3つのコア課題が見られます。
本研究では,1)既存の視覚言語モデルは空間ベースアプリケーションでは不十分な視覚推論モデルであり,2)地球外データ上での視覚言語モデルの微調整は応答の質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 16.81793096235458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, e.g., large language models, possess attributes of intelligence which offer promise to endow a robot with the contextual understanding necessary to navigate complex, unstructured tasks in the wild. In the future of space robotics, we see three core challenges which motivate the use of a foundation model adapted to space-based applications: 1) Scalability of ground-in-the-loop operations; 2) Generalizing prior knowledge to novel environments; and 3) Multi-modality in tasks and sensor data. Therefore, as a first-step towards building a foundation model for space-based applications, we automatically label the AI4Mars dataset to curate a language annotated dataset of visual-question-answer tuples. We fine-tune a pretrained LLaVA checkpoint on this dataset to endow a vision-language model with the ability to perform spatial reasoning and navigation on Mars' surface. In this work, we demonstrate that 1) existing vision-language models are deficient visual reasoners in space-based applications, and 2) fine-tuning a vision-language model on extraterrestrial data significantly improves the quality of responses even with a limited training dataset of only a few thousand samples.
- Abstract(参考訳): ファンデーションモデル(例えば、大きな言語モデル)は、複雑な非構造的なタスクをナビゲートするのに必要なコンテキスト理解を持つロボットを約束するインテリジェンスの属性を持っている。
宇宙ロボティクスの未来では、宇宙ベースの応用に適応した基礎モデルの使用を動機付ける3つのコア課題が見られます。
1) グラウンド・イン・ザ・ループ操作のスケーラビリティ
2【事前知識の新規環境への一般化】
3)タスクとセンサデータのマルチモーダリティ。
したがって、宇宙ベースのアプリケーションのための基盤モデルを構築するための第一歩として、AI4Marsデータセットを自動的にラベル付けして、視覚的な問合せのタプルの注釈付きデータセットをキュレートする。
我々は、火星表面の空間的推論とナビゲーションを行う能力を持つ視覚言語モデルを実現するために、このデータセット上で事前訓練されたLLaVAチェックポイントを微調整する。
この研究で、私たちはそれを実証します。
1)既存の視覚言語モデルは、空間ベースアプリケーションにおいて不十分な視覚的推論器であり、
2)地球外データを用いた視覚言語モデルの微調整は,数千サンプルの限られたトレーニングデータセットであっても,応答の質を著しく向上させる。
関連論文リスト
- Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Space3D-Bench: Spatial 3D Question Answering Benchmark [49.259397521459114]
Space3D-Benchは、Replicaデータセットのシーンに関連する1000の一般的な空間的質問と回答の集合である。
本研究では,事前定義された接地真実解に基づいて,自然言語応答を評価評価するシステムを提案する。
最後に,基礎モデルの世界理解をリッチな文脈検索と統合したRAG3D-Chatというベースラインを導入する。
論文 参考訳(メタデータ) (2024-08-29T16:05:22Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - Towards A Foundation Model For Trajectory Intelligence [0.0]
実世界のユーザチェックインデータを用いて,大規模軌跡モデルのトレーニング結果を示す。
提案手法は,マスク付き軌道モデルを用いてベースモデルを事前学習する,事前学習と微調整のパラダイムに従う。
私たちの経験分析では、600万人以上のユーザーが生成した20億以上のチェックインの包括的データセットを利用しています。
論文 参考訳(メタデータ) (2023-11-30T00:34:09Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Transfer Learning with Synthetic Corpora for Spatial Role Labeling and
Reasoning [15.082041039434365]
複数の空間言語処理タスクに2つの新しいデータリソースを提供する。
空間質問応答(SQA)と空間ロールラベリング(SpRL)の伝達学習のために、第1のデータセットを合成する。
第2のデータセットは、SPRLアノテーションを備えた既存のコーパス上に構築された人間生成の質問を備えた現実世界のSQAデータセットである。
論文 参考訳(メタデータ) (2022-10-30T21:23:34Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。