Fugu-MT 論文翻訳(概要): OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following

論文の概要: OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following

arxiv url: http://arxiv.org/abs/2403.03017v1
Date: Tue, 5 Mar 2024 14:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 14:30:46.816870
Title: OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following
Title（参考訳）: OPEx: LLM-Centric Agents の身体的指示後のコンポーネントワイズ解析
Authors: Haochen Shi, Zhiyuan Sun, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Bang Liu
Abstract要約: EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。近年,大規模な言語モデル(LLM)をフレームワーク中心のアプローチで採用し,EDFの性能向上が図られている。 EIFタスクの解決に不可欠なコアコンポーネント(Observer、Planner、Executor)を記述した包括的なフレームワークであるOPExを紹介します。
参考スコア（独自算出の注目度）: 38.99303334457817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied Instruction Following (EIF) is a crucial task in embodied learning, requiring agents to interact with their environment through egocentric observations to fulfill natural language instructions. Recent advancements have seen a surge in employing large language models (LLMs) within a framework-centric approach to enhance performance in embodied learning tasks, including EIF. Despite these efforts, there exists a lack of a unified understanding regarding the impact of various components-ranging from visual perception to action execution-on task performance. To address this gap, we introduce OPEx, a comprehensive framework that delineates the core components essential for solving embodied learning tasks: Observer, Planner, and Executor. Through extensive evaluations, we provide a deep analysis of how each component influences EIF task performance. Furthermore, we innovate within this space by deploying a multi-agent dialogue strategy on a TextWorld counterpart, further enhancing task performance. Our findings reveal that LLM-centric design markedly improves EIF outcomes, identify visual perception and low-level action execution as critical bottlenecks, and demonstrate that augmenting LLMs with a multi-agent framework further elevates performance.
Abstract（参考訳）: EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。近年,EIFを含む具体的学習タスクのパフォーマンス向上を目的としたフレームワーク中心のアプローチにおいて,大規模言語モデル(LLM)の採用が急増している。これらの努力にもかかわらず、視覚知覚からアクション実行時のタスクパフォーマンスまで、さまざまなコンポーネントが与える影響について統一的な理解が欠如している。このギャップに対処するため、私たちはOPExを紹介します。これは、組込み学習タスク(Observer、Planner、Executor)の解決に必要なコアコンポーネントを記述した包括的なフレームワークです。広範な評価を通じて、各コンポーネントがeifタスクのパフォーマンスにどのように影響するかを深く分析する。さらに,マルチエージェント対話戦略をtextworld対応に展開し,タスクパフォーマンスをさらに向上させることにより,この分野におけるイノベーションを実現する。以上の結果から,マルチエージェントフレームワークによるLLMの強化により,FIFの成果が著しく向上し,視覚認識と低レベルの動作実行が重要なボトルネックとして認識されることが明らかとなった。

関連論文リスト

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability [23.81322529587759]
REVEAL-ITは複雑な環境下でのエージェントの学習過程を説明するための新しいフレームワークである。各種学習課題における政策構造とエージェントの学習過程を可視化する。 GNNベースの説明者は、ポリシーの最も重要な部分を強調することを学び、エージェントの学習プロセスについてより明確で堅牢な説明を提供する。
論文参考訳（メタデータ） (2024-06-20T11:29:26Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Enhancing Large Language Model with Decomposed Reasoning for Emotion Cause Pair Extraction [13.245873138716044]
Emotion-Cause Pair extract (ECPE) は、感情とその原因を表す節対を文書で抽出する。近年の成果から着想を得て,大規模言語モデル(LLM)を活用してECPEタスクに追加のトレーニングを加えることなく対処する方法について検討した。人間の認知過程を模倣するチェーン・オブ・シントを導入し,Decomposed Emotion-Cause Chain (DECC) フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-31T10:20:01Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-09-30T07:11:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。