Fugu-MT 論文翻訳(概要): MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

論文の概要: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2403.19913v1
Date: Fri, 29 Mar 2024 01:53:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 16:44:26.693461
Title: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models
Title（参考訳）: MANGO:大規模言語モデルのマッピングとナビゲーション能力の評価ベンチマーク
Authors: Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei,
Abstract要約: ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。テキストベースのマッピングとナビゲーションを行う機能を評価するためのベンチマークであるMANGOを提案する。
参考スコア（独自算出の注目度）: 35.49165347434718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/.
Abstract（参考訳）: ChatGPTやGPT-4のような大規模言語モデルは、最近、様々な自然言語処理タスクにおける驚くべきパフォーマンスを達成した。本稿では,テキストマッピングとナビゲーションの能力を評価するベンチマークであるMANGOを提案する。ベンチマークには、一連のテキストゲームから採取した53個の迷路が含まれている。各迷路は、すべての場所を訪れながら、可能なすべての経路をカバーしていないウォークスルーとペアリングされる。それぞれの迷路について、大きな言語モデルがウォークスルーを読み、数百の地図やナビゲーションの質問に答えている。これらの質問は人間にとって容易であるが、最も最新の言語モデルであるGPT-4でさえ、答えが不十分であることが判明した。さらに,本実験は,テキストゲームなどの下流タスクの実行において,強力なマッピングとナビゲーション能力が大きな言語モデルに有効であることが示唆された。我々のMANGOベンチマークは,言語モデルのマッピングとナビゲーション機能を改善する手法の今後の研究を促進する。私たちはリーダーボード、データ、コード、評価プログラムをhttps://mango.ttic.eduとhttps://github.com/oaklight/mango/でホストしています。

関連論文リスト

LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation [34.074871694181965]
目標ナビゲーションタスクであるHieraNavを導入し、エージェントは自然言語命令を解釈して4つの意味レベルでターゲットに到達する。われわれはLanguage as a Map (LangMap)について紹介する。 LangMapはより優れたアノテーション品質を実現し、GOAT-Benchを4倍の単語で識別精度で23.8%上回る。
論文参考訳（メタデータ） (2026-02-02T15:26:19Z)
LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation [18.951580080771432]
LangNavは、異なるレベルの詳細で記述されたオブジェクトを見つけるエージェントの能力をテストするために特別に作成された、オープンセットのデータセットである。 LangNavBenchを使えば、属性、空間的およびリレーショナルなキュー、およびカテゴリ階層の処理に関するモデルを体系的に比較することができます。 MLFMはクエリ可能な多層セマンティックマップを構築する方法である。
論文参考訳（メタデータ） (2025-07-09T21:46:43Z)
Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models [8.609733312518463]
本研究では、ロボット工学における視覚・言語ナビゲーション(VLN)領域におけるアラビア語の統合に関する最初の研究について述べる。我々は、最先端の多言語小言語モデル(SLM)の包括的評価を行う。我々は,英語とアラビア語の両方で指示を与えると,ナビゲーションタスクの高レベルな計画が可能であることを実証する。
論文参考訳（メタデータ） (2025-01-07T16:01:25Z)
NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation [66.89717229608358]
NAVCONは2つの一般的なデータセット(R2RとRxR)の上に構築された大規模な注釈付きビジョンランゲージナビゲーション(VLN)コーパスである。
論文参考訳（メタデータ） (2024-12-17T15:48:25Z)
GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps [5.874552372073687]
大規模言語モデル(LLM)は、最近、自然言語の生成と理解において大きな成功を収めた。多様な2次元グリッドベースのゲームマップからなるベンチマークであるGameTraversalBenchmark (GTB)を提案する。 GPT-4-TurboはGTB_Score(GTBS)で44.97%の最高スコアを記録した。
論文参考訳（メタデータ） (2024-10-10T09:54:28Z)
E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion [34.85528852487379]
textbfE-ANTは中国初のGUIナビゲーションデータセットで、5000以上の小さなappsで4万の人間がトレースしている。各種MLLMをE-ANT上で評価し,実験結果を十分な精度で示す。
論文参考訳（メタデータ） (2024-06-20T12:22:05Z)
LaMOT: Language-Guided Multi-Object Tracking [13.866428951384124]
Vision-Language MOTは、人間の言語コマンドに基づいてオブジェクトを追跡することを目的としている。様々な努力にもかかわらず、重要な課題は、なぜ言語が追跡に使用されるのかを明確に理解していないことである。本稿では,Language-Guided MOT(Language-Guided MOT)と,それに対応する大規模ベンチマークであるLaMOTを紹介する。
論文参考訳（メタデータ） (2024-06-12T15:24:09Z)
Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM [6.475074453206891]
人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。事例レベルの情報と環境の意味的理解が,言語指導タスクの性能向上に有効であることを示す。本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。
論文参考訳（メタデータ） (2024-04-27T14:20:46Z)
IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文参考訳（メタデータ） (2024-03-28T11:52:42Z)
Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文参考訳（メタデータ） (2022-10-14T04:23:27Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文参考訳（メタデータ） (2022-03-07T07:40:33Z)
Code to Comment "Translation": Data, Metrics, Baselining & Evaluation [49.35567240750619]
本稿では,この課題に対する最近のコード・コンパートメント・データセットについて分析する。それらをWMT19と比較する。WMT19は、アート自然言語翻訳者の状態のトレーニングに頻繁に使用される標準データセットである。ソースコードデータとWMT19自然言語データの間には,いくつかの興味深い違いがある。
論文参考訳（メタデータ） (2020-10-03T18:57:26Z)
TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文参考訳（メタデータ） (2020-04-07T18:00:03Z)
Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文参考訳（メタデータ） (2020-01-16T08:09:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。