Fugu-MT 論文翻訳(概要): Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

論文の概要: Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

arxiv url: http://arxiv.org/abs/2501.05478v1
Date: Tue, 07 Jan 2025 16:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.023874
Title: Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models
Title（参考訳）: ロボットナビゲーションにおける言語と計画--最先端モデルの多言語的評価
Authors: Malak Mansour, Ahmed Aly, Bahey Tharwat, Sarim Hashmi, Dong An, Ian Reid,
Abstract要約: 本研究では、ロボット工学における視覚・言語ナビゲーション(VLN)領域におけるアラビア語の統合に関する最初の研究について述べる。我々は、最先端の多言語小言語モデル(SLM)の包括的評価を行う。我々は,英語とアラビア語の両方で指示を与えると,ナビゲーションタスクの高レベルな計画が可能であることを実証する。
参考スコア（独自算出の注目度）: 8.609733312518463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) such as GPT-4, trained on huge amount of datasets spanning multiple domains, exhibit significant reasoning, understanding, and planning capabilities across various tasks. This study presents the first-ever work in Arabic language integration within the Vision-and-Language Navigation (VLN) domain in robotics, an area that has been notably underexplored in existing research. We perform a comprehensive evaluation of state-of-the-art multi-lingual Small Language Models (SLMs), including GPT-4o mini, Llama 3 8B, and Phi-3 medium 14B, alongside the Arabic-centric LLM, Jais. Our approach utilizes the NavGPT framework, a pure LLM-based instruction-following navigation agent, to assess the impact of language on navigation reasoning through zero-shot sequential action prediction using the R2R dataset. Through comprehensive experiments, we demonstrate that our framework is capable of high-level planning for navigation tasks when provided with instructions in both English and Arabic. However, certain models struggled with reasoning and planning in the Arabic language due to inherent limitations in their capabilities, sub-optimal performance, and parsing issues. These findings highlight the importance of enhancing planning and reasoning capabilities in language models for effective navigation, emphasizing this as a key area for further development while also unlocking the potential of Arabic-language models for impactful real-world applications.
Abstract（参考訳）: GPT-4のような大規模言語モデル(LLM)は、複数のドメインにまたがる膨大なデータセットに基づいて訓練され、様々なタスクにまたがる重要な推論、理解、計画能力を示す。本研究は、ロボット工学における視覚・言語ナビゲーション(VLN)領域におけるアラビア語統合における最初の研究である。 GPT-4o mini, Llama 3 8B, Phi-3 medium 14B を含む最先端の多言語小言語モデル (SLM) をアラビア中心の LLM, Jais とともに包括的に評価する。提案手法では,LLMに基づく命令追従型ナビゲーションエージェントであるNavGPTフレームワークを用いて,R2Rデータセットを用いたゼロショットシーケンシャル動作予測によるナビゲーション推論における言語の影響を評価する。包括的な実験を通じて、我々のフレームワークは、英語とアラビア語の両方で指示を与えると、ナビゲーションタスクの高レベルな計画が可能であることを実証する。しかし、特定のモデルは、その能力に固有の制限、準最適性能、解析の問題のために、アラビア語の推論と計画に苦しんだ。これらの知見は、効果的なナビゲーションのための言語モデルにおける計画と推論能力の向上の重要性を強調し、これをさらなる発展の鍵となる分野として強調するとともに、影響力のある実世界のアプリケーションのためのアラビア語モデルの可能性を開放している。

関連論文リスト

The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。 FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文参考訳（メタデータ） (2025-07-11T12:38:02Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。近年の研究では、低リソース言語におけるLLMの限界が強調されている。英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文参考訳（メタデータ） (2024-08-05T05:09:23Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文参考訳（メタデータ） (2024-05-07T20:11:44Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文参考訳（メタデータ） (2024-03-05T18:01:59Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
On the Planning, Search, and Memorization Capabilities of Large Language Models [0.0]
タスク計画における最先端の大規模言語モデル(GPT-4)の可能性について検討する。大規模言語モデルが計画問題の解決に優れている領域を特定し,適用性を制限する制約を明らかにする。
論文参考訳（メタデータ） (2023-09-05T00:19:31Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。 Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文参考訳（メタデータ） (2022-12-20T17:34:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。