Fugu-MT 論文翻訳(概要): TANGO: Training-free Embodied AI Agents for Open-world Tasks

論文の概要: TANGO: Training-free Embodied AI Agents for Open-world Tasks

arxiv url: http://arxiv.org/abs/2412.10402v1
Date: Thu, 05 Dec 2024 21:52:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 16:39:32.623209
Title: TANGO: Training-free Embodied AI Agents for Open-world Tasks
Title（参考訳）: TANGO: オープンワールドタスクのためのトレーニング不要の体操AIエージェント
Authors: Filippo Ziliotto, Tommaso Campari, Luciano Serafini, Lamberto Ballan,
Abstract要約: 本稿では,すでに観測されているLCMを用いてプログラム構成を拡張するTANGOを提案する。追加のトレーニングを必要とせずに、単一のモデルが多様なタスクにどのように対処できるかを示す。我々は,オープンセットオブジェクトゴールナビゲーション,マルチモーダルライフロングナビゲーション,オープンエンボディード質問回答という3つの重要なAIタスクに対するアプローチを評価した。
参考スコア（独自算出の注目度）: 11.029387480118652
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated excellent capabilities in composing various modules together to create programs that can perform complex reasoning tasks on images. In this paper, we propose TANGO, an approach that extends the program composition via LLMs already observed for images, aiming to integrate those capabilities into embodied agents capable of observing and acting in the world. Specifically, by employing a simple PointGoal Navigation model combined with a memory-based exploration policy as a foundational primitive for guiding an agent through the world, we show how a single model can address diverse tasks without additional training. We task an LLM with composing the provided primitives to solve a specific task, using only a few in-context examples in the prompt. We evaluate our approach on three key Embodied AI tasks: Open-Set ObjectGoal Navigation, Multi-Modal Lifelong Navigation, and Open Embodied Question Answering, achieving state-of-the-art results without any specific fine-tuning in challenging zero-shot scenarios.
Abstract（参考訳）: 大規模言語モデル(LLM)は、画像上の複雑な推論タスクを実行できるプログラムを作成するために、様々なモジュールをまとめて構成する優れた能力を示した。本稿では,すでに観測されているLCMを用いてプログラム構成を拡張したTANGOを提案する。具体的には、単純なPointGoal Navigationモデルとメモリベースの探索ポリシーを組み合わせて、エージェントを世界中に導くための基本的なプリミティブを用いて、単一のモデルが追加トレーニングなしで多様なタスクに対処できることを示す。我々は,与えられたプリミティブを組み立てて特定のタスクを解くことを LLM に課す。我々は、オープンセットオブジェクトゴールナビゲーション、マルチモーダルライフロングナビゲーション、オープンエンボディード質問回答という3つの重要なタスクに対するアプローチを評価する。

関連論文リスト

Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文参考訳（メタデータ） (2025-10-01T09:20:51Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文参考訳（メタデータ） (2024-08-05T14:27:39Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文参考訳（メタデータ） (2023-12-04T16:32:51Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文参考訳（メタデータ） (2022-12-08T17:07:09Z)
Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文参考訳（メタデータ） (2022-02-05T00:07:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。