論文の概要: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2403.19913v1
- Date: Fri, 29 Mar 2024 01:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:44:26.693461
- Title: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
- Title(参考訳): MANGO:大規模言語モデルのマッピングとナビゲーション能力の評価ベンチマーク
- Authors: Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei,
- Abstract要約: ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。
テキストベースのマッピングとナビゲーションを行う機能を評価するためのベンチマークであるMANGOを提案する。
- 参考スコア(独自算出の注目度): 35.49165347434718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。
本稿では,テキストマッピングとナビゲーションの能力を評価するベンチマークであるMANGOを提案する。
ベンチマークには、一連のテキストゲームから採取した53個の迷路が含まれている。各迷路は、すべての場所を訪れながら、可能なすべての経路をカバーしていないウォークスルーとペアリングされる。
それぞれの迷路について、大きな言語モデルがウォークスルーを読み、数百の地図やナビゲーションの質問に答えている。
これらの質問は人間にとって容易であるが、最も最新の言語モデルであるGPT-4でさえ、答えが不十分であることが判明した。
さらに,本実験は,テキストゲームなどの下流タスクの実行において,強力なマッピングとナビゲーション能力が大きな言語モデルに有効であることが示唆された。
我々のMANGOベンチマークは,言語モデルのマッピングとナビゲーション機能を改善する手法の今後の研究を促進する。
私たちはリーダーボード、データ、コード、評価プログラムをhttps://mango.ttic.eduとhttps://github.com/oaklight/mango/でホストしています。
関連論文リスト
- Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。
ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。
提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-03-07T07:40:33Z) - Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。
それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。
ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文 参考訳(メタデータ) (2020-10-03T18:57:26Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。