論文の概要: SELU: Self-Learning Embodied MLLMs in Unknown Environments
- arxiv url: http://arxiv.org/abs/2410.03303v1
- Date: Fri, 4 Oct 2024 10:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:08:51.588706
- Title: SELU: Self-Learning Embodied MLLMs in Unknown Environments
- Title(参考訳): SELU: 未知の環境下での自己学習型体育館
- Authors: Boyu Li, Haobin Jiang, Ziluo Ding, Xinrun Xu, Haoran Li, Dongbin Zhao, Zongqing Lu,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、強力な視覚的理解と意思決定能力を示している。
本稿では,強化学習におけるアクター批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター批判的自己学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 35.58488008785505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multimodal large language models (MLLMs) have demonstrated strong visual understanding and decision-making capabilities, enabling the exploration of autonomously improving MLLMs in unknown environments. However, external feedback like human or environmental feedback is not always available. To address this challenge, existing methods primarily focus on enhancing the decision-making capabilities of MLLMs through voting and scoring mechanisms, while little effort has been paid to improving the environmental comprehension of MLLMs in unknown environments. To fully unleash the self-learning potential of MLLMs, we propose a novel actor-critic self-learning paradigm, dubbed SELU, inspired by the actor-critic paradigm in reinforcement learning. The critic employs self-asking and hindsight relabeling to extract knowledge from interaction trajectories collected by the actor, thereby augmenting its environmental comprehension. Simultaneously, the actor is improved by the self-feedback provided by the critic, enhancing its decision-making. We evaluate our method in the AI2-THOR and VirtualHome environments, and SELU achieves critic improvements of approximately 28% and 30%, and actor improvements of about 20% and 24% via self-learning.
- Abstract(参考訳): 近年,Multimodal Large Language Model (MLLM) は視覚的理解と意思決定能力を示し,未知の環境でMLLMを自律的に改善する探索を可能にしている。
しかし、人間や環境フィードバックのような外部からのフィードバックは、必ずしも利用できない。
この課題に対処するため,既存の手法は主に投票・採点機構によるMLLMの意思決定能力の向上に重点を置いているが,未知環境におけるMLLMの環境理解向上にはほとんど努力が払われていない。
MLLMの自己学習の可能性を完全に解き放つために,強化学習におけるアクター-批判的自己学習パラダイムに触発された,SELUと呼ばれる新しいアクター-批判的自己学習パラダイムを提案する。
批評家は、アクターが収集したインタラクショントラジェクトリから知識を抽出するために、自己認識と後向きのレバーベリングを採用し、それによって環境理解を増強する。
同時に、批評家が提供した自己フィードバックにより、俳優は改善され、意思決定が強化される。
筆者らはAI2-THORおよびVirtualHome環境での手法の評価を行い、SELUは約28%と30%の批判的改善と、自己学習による約20%と24%のアクター的改善を実現している。
関連論文リスト
- Metacognition for Unknown Situations and Environments (MUSE) [3.2020845462590697]
未知の状況と環境(MUSE)フレームワークのメタ認知を提案する。
MUSEはメタ認知プロセス、特に自己認識と自己制御を自律エージェントに統合する。
エージェントは自己認識と自己制御の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-20T18:41:03Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Into the Unknown: Self-Learning Large Language Models [0.0]
モデルに未知の原子知識を特定するために,未知の点 (PiU) という概念を導入する。
LLMの自己学習能力を評価するための評価指標を開発した。
論文 参考訳(メタデータ) (2024-02-14T12:56:58Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。