Fugu-MT 論文翻訳(概要): VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View

論文の概要: VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View

arxiv url: http://arxiv.org/abs/2307.06082v2
Date: Wed, 24 Jan 2024 15:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 17:41:51.138850
Title: VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View
Title（参考訳）: VELMA:ストリートビューにおける視覚・言語ナビゲーションのためのLLMエージェントの言語化
Authors: Raphael Schumann and Wanrong Zhu and Weixi Feng and Tsu-Jui Fu and Stefan Riezler and William Yang Wang
Abstract要約: 視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
参考スコア（独自算出の注目度）: 81.58612867186633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incremental decision making in real-world environments is one of the most challenging tasks in embodied artificial intelligence. One particularly demanding scenario is Vision and Language Navigation~(VLN) which requires visual and natural language understanding as well as spatial and temporal reasoning capabilities. The embodied agent needs to ground its understanding of navigation instructions in observations of a real-world environment like Street View. Despite the impressive results of LLMs in other research areas, it is an ongoing problem of how to best connect them with an interactive visual environment. In this work, we propose VELMA, an embodied LLM agent that uses a verbalization of the trajectory and of visual environment observations as contextual prompt for the next action. Visual information is verbalized by a pipeline that extracts landmarks from the human written navigation instructions and uses CLIP to determine their visibility in the current panorama view. We show that VELMA is able to successfully follow navigation instructions in Street View with only two in-context examples. We further finetune the LLM agent on a few thousand examples and achieve 25%-30% relative improvement in task completion over the previous state-of-the-art for two datasets.
Abstract（参考訳）: 現実世界の環境におけるインクリメンタルな意思決定は、人工知能を具現化する上で最も難しいタスクの1つだ。特に要求されるシナリオは視覚と言語ナビゲーション(VLN)であり、視覚的および自然言語理解と空間的および時間的推論能力を必要とする。具体化エージェントは、ストリートビューのような現実世界の環境を観察する際に、ナビゲーション指示に対する理解を深める必要がある。 LLMの他の研究分野における印象的な成果にもかかわらず、インタラクティブな視覚環境とどのように接続するかは、現在進行中の問題である。本研究では, 次の行動の文脈的プロンプトとして, 軌跡の言語化と視覚環境観察を併用したLLMエージェントであるVELMAを提案する。視覚情報は、人間の記述したナビゲーション命令からランドマークを抽出し、CLIPを使用して現在のパノラマビューでその可視性を決定するパイプラインによって言語化される。 VELMAは2つのコンテキスト内例だけで,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。

関連論文リスト

Exploring Multimodal Prompt for Visualization Authoring with Large Language Models [12.43647167483504]
可視化オーサリングの文脈において,大言語モデル(LLM)が不明瞭あるいは不完全なテキストプロンプトをどのように解釈するかを検討する。テキストプロンプトに補完的な入力モダリティとして視覚的プロンプトを導入し,ユーザの意図を明らかにする。テキストやスケッチ,直接操作など,マルチモーダルなプロンプトを使って視覚化を簡単に作成できるVisPilotを設計する。
論文参考訳（メタデータ） (2025-04-18T14:00:55Z)
Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文参考訳（メタデータ） (2024-10-11T03:54:48Z)
Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文参考訳（メタデータ） (2024-09-09T12:17:38Z)
Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである 2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。 VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-15T10:04:15Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
Know What and Know Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文参考訳（メタデータ） (2021-04-09T02:44:39Z)
Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文参考訳（メタデータ） (2021-03-30T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。