論文の概要: Visual Language Models as Operator Agents in the Space Domain
- arxiv url: http://arxiv.org/abs/2501.07802v1
- Date: Tue, 14 Jan 2025 03:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:37.601127
- Title: Visual Language Models as Operator Agents in the Space Domain
- Title(参考訳): 空間領域における演算子エージェントとしての視覚言語モデル
- Authors: Alejandro Carrasco, Marco Nedungadi, Enrico M. Zucchelli, Amit Jain, Victor Rodriguez-Fernandez, Richard Linares,
- Abstract要約: VLM(Vision-Language Models)は、宇宙ミッションにおける自律的な制御と意思決定を強化する。
ソフトウェア環境では、複雑な軌道操作を行うために、VLMを用いてグラフィカルユーザインタフェースの視覚的なスクリーンショットを解釈する。
ハードウェアの分野では、衛星などの物理空間オブジェクトを検査・診断するためのカメラを備えたロボットシステムとVLMを統合する。
- 参考スコア(独自算出の注目度): 36.943670587532026
- License:
- Abstract: This paper explores the application of Vision-Language Models (VLMs) as operator agents in the space domain, focusing on both software and hardware operational paradigms. Building on advances in Large Language Models (LLMs) and their multimodal extensions, we investigate how VLMs can enhance autonomous control and decision-making in space missions. In the software context, we employ VLMs within the Kerbal Space Program Differential Games (KSPDG) simulation environment, enabling the agent to interpret visual screenshots of the graphical user interface to perform complex orbital maneuvers. In the hardware context, we integrate VLMs with robotic systems equipped with cameras to inspect and diagnose physical space objects, such as satellites. Our results demonstrate that VLMs can effectively process visual and textual data to generate contextually appropriate actions, competing with traditional methods and non-multimodal LLMs in simulation tasks, and showing promise in real-world applications.
- Abstract(参考訳): 本稿では,空間領域における演算子としての視覚言語モデル(VLM)の適用について検討し,ソフトウェアとハードウェアの両方の操作パラダイムに着目した。
大規模言語モデル(LLM)とそのマルチモーダル拡張の進歩を基盤として,VLMが宇宙ミッションにおける自律的制御と意思決定をいかに向上させるかを検討する。
ソフトウェアでは,KSPDG(Kerbal Space Program Differential Games)シミュレーション環境内にVLMを用いて,グラフィカルユーザインタフェースの視覚的スクリーンショットを解釈し,複雑な軌道操作を行う。
ハードウェアの分野では、衛星などの物理空間オブジェクトを検査・診断するためのカメラを備えたロボットシステムとVLMを統合する。
この結果から,VLMは視覚的およびテキスト的データを効果的に処理し,文脈的に適切な動作を生成できること,シミュレーションタスクにおいて従来の手法や非マルチモーダルLCMと競合すること,実世界のアプリケーションで約束されることを示す。
関連論文リスト
- Space-Aware Instruction Tuning: Dataset and Benchmark for Guide Dog Robots Assisting the Visually Impaired [0.2410625015892047]
スペース・アウェア・インストラクション・チューニング(SAIT)データセットとスペース・アウェア・ベンチマーク(SA-Bench)を紹介する。
データ生成パイプラインは、3D空間と周囲の目的地への仮想パスに焦点を当てています。
本稿では,歩行指導におけるVLMの有効性を評価するための評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-02-11T02:14:49Z) - Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program [42.87968485876435]
本研究は、自律型宇宙船制御における微調整大型言語モデル(LLM)の利用について検討する。
これらのモデルが、言語ベースの入力と出力を用いて、宇宙船を効果的に制御する方法を実証する。
論文 参考訳(メタデータ) (2024-08-16T11:43:31Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Language Models are Spacecraft Operators [36.943670587532026]
大規模言語モデル(LLM)は、ユーザのテキストプロンプトの内容に基づいてアクションを行う自律エージェントである。
我々は,KSPDG(Kerbal Space Program Differential Games)チャレンジに対して,純粋なLLMベースのソリューションを開発した。
論文 参考訳(メタデータ) (2024-03-30T16:43:59Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。