Fugu-MT 論文翻訳(概要): MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces

論文の概要: MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces

arxiv url: http://arxiv.org/abs/2502.07709v1
Date: Tue, 11 Feb 2025 17:08:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.251494
Title: MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces
Title（参考訳）: MAGELLAN:大規模目標空間における学習進行のメタ認知的予測
Authors: Loris Gaven, Thomas Carta, Clément Romac, Cédric Colas, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer,
Abstract要約: オープンエンド学習エージェントは、広大な可能性空間における目標を効率的に優先順位付けする必要がある。従来のアプローチでは、広範なサンプリングを必要とするか、不安定な専門家定義の目標グループ化に依存している。 LLMエージェントがオンライン上で能力とLPを予測することを学習するメタ認知フレームワークであるMAGELLANを紹介した。
参考スコア（独自算出の注目度）: 30.231701007708146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-ended learning agents must efficiently prioritize goals in vast possibility spaces, focusing on those that maximize learning progress (LP). When such autotelic exploration is achieved by LLM agents trained with online RL in high-dimensional and evolving goal spaces, a key challenge for LP prediction is modeling one's own competence, a form of metacognitive monitoring. Traditional approaches either require extensive sampling or rely on brittle expert-defined goal groupings. We introduce MAGELLAN, a metacognitive framework that lets LLM agents learn to predict their competence and LP online. By capturing semantic relationships between goals, MAGELLAN enables sample-efficient LP estimation and dynamic adaptation to evolving goal spaces through generalization. In an interactive learning environment, we show that MAGELLAN improves LP prediction efficiency and goal prioritization, being the only method allowing the agent to fully master a large and evolving goal space. These results demonstrate how augmenting LLM agents with a metacognitive ability for LP predictions can effectively scale curriculum learning to open-ended goal spaces.
Abstract（参考訳）: オープンエンド学習エージェントは、学習進歩(LP)を最大化することに焦点を当て、広大な可能性空間における目標を効率的に優先順位付けする必要がある。オンラインRLを用いて高次元かつ発展的な目標空間で訓練されたLCMエージェントによってこのような自己複製探索が達成された場合、LP予測の重要な課題は、メタ認知的モニタリングの形式である自身の能力のモデル化である。従来のアプローチでは、広範囲のサンプリングを必要とするか、不安定な専門家定義の目標グループ化に依存している。 LLMエージェントがオンライン上で能力とLPを予測することを学習するメタ認知フレームワークであるMAGELLANを紹介した。 MAGELLANは,目標間の意味的関係を捉えることにより,標本効率のよいLP推定と,一般化による発展的目標空間への動的適応を可能にする。対話型学習環境において、MAGELLANはLP予測効率とゴール優先性を向上し、エージェントが大規模で進化するゴール空間を完全にマスターできる唯一の方法であることを示す。これらの結果から,LP予測のためのメタ認知能力を持つLLMエージェントが,カリキュラム学習をオープンエンドゴール空間に効果的に拡張できることが示唆された。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。 Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。 Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文参考訳（メタデータ） (2025-02-10T15:54:34Z)
Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文参考訳（メタデータ） (2025-01-27T21:26:37Z)
LLM-powered Multi-agent Framework for Goal-oriented Learning in Intelligent Tutoring System [54.71619734800526]
GenMentorは、ITS内で目標指向でパーソナライズされた学習を提供するために設計されたマルチエージェントフレームワークである。学習者の目標を、カスタムのゴール・トゥ・スキルデータセットでトレーニングされた微調整LDMを使用して、必要なスキルにマッピングする。 GenMentorは、個々の学習者のニーズに合わせて探索・描画・統合機構で学習内容を調整する。
論文参考訳（メタデータ） (2025-01-27T03:29:44Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。本研究では,眼球運動計測を用いた認知的視点からLLMのメカニズムを考察する。
論文参考訳（メタデータ） (2024-10-23T09:40:15Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。 LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文参考訳（メタデータ） (2024-05-08T09:28:04Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。