論文の概要: VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View
- arxiv url: http://arxiv.org/abs/2307.06082v2
- Date: Wed, 24 Jan 2024 15:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:41:51.138850
- Title: VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View
- Title(参考訳): VELMA:ストリートビューにおける視覚・言語ナビゲーションのためのLLMエージェントの言語化
- Authors: Raphael Schumann and Wanrong Zhu and Weixi Feng and Tsu-Jui Fu and
Stefan Riezler and William Yang Wang
- Abstract要約: 視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
- 参考スコア(独自算出の注目度): 81.58612867186633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incremental decision making in real-world environments is one of the most
challenging tasks in embodied artificial intelligence. One particularly
demanding scenario is Vision and Language Navigation~(VLN) which requires
visual and natural language understanding as well as spatial and temporal
reasoning capabilities. The embodied agent needs to ground its understanding of
navigation instructions in observations of a real-world environment like Street
View. Despite the impressive results of LLMs in other research areas, it is an
ongoing problem of how to best connect them with an interactive visual
environment. In this work, we propose VELMA, an embodied LLM agent that uses a
verbalization of the trajectory and of visual environment observations as
contextual prompt for the next action. Visual information is verbalized by a
pipeline that extracts landmarks from the human written navigation instructions
and uses CLIP to determine their visibility in the current panorama view. We
show that VELMA is able to successfully follow navigation instructions in
Street View with only two in-context examples. We further finetune the LLM
agent on a few thousand examples and achieve 25%-30% relative improvement in
task completion over the previous state-of-the-art for two datasets.
- Abstract(参考訳): 現実世界の環境におけるインクリメンタルな意思決定は、人工知能を具現化する上で最も難しいタスクの1つだ。
特に要求されるシナリオは視覚と言語ナビゲーション(VLN)であり、視覚的および自然言語理解と空間的および時間的推論能力を必要とする。
具体化エージェントは、ストリートビューのような現実世界の環境を観察する際に、ナビゲーション指示に対する理解を深める必要がある。
LLMの他の研究分野における印象的な成果にもかかわらず、インタラクティブな視覚環境とどのように接続するかは、現在進行中の問題である。
本研究では, 次の行動の文脈的プロンプトとして, 軌跡の言語化と視覚環境観察を併用したLLMエージェントであるVELMAを提案する。
視覚情報は、人間の記述したナビゲーション命令からランドマークを抽出し、CLIPを使用して現在のパノラマビューでその可視性を決定するパイプラインによって言語化される。
VELMAは2つのコンテキスト内例だけで,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
関連論文リスト
- Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。
我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。
実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。