論文の概要: Disentangling Exploration of Large Language Models by Optimal Exploitation
- arxiv url: http://arxiv.org/abs/2501.08925v2
- Date: Mon, 03 Feb 2025 15:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:08:04.669517
- Title: Disentangling Exploration of Large Language Models by Optimal Exploitation
- Title(参考訳): 最適爆発による大規模言語モデルの遠ざかる探索
- Authors: Tim Grams, Patrick Betz, Christian Bartelt,
- Abstract要約: この作業は、探索を唯一の目的として分離し、エージェントに将来のリターンを高める情報の提供を任せる。
様々なモデルによる総合的な実験は、ほとんどの場合、状態空間を十分に探索するのに苦労していることを示している。
パラメータカウントと探索性能の正の相関を観測し,より大きなモデルで優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.633554611703142
- License:
- Abstract: Exploration is a crucial skill for self-improvement and open-ended problem-solving. However, it remains unclear if large language models can effectively explore the state-space within an unknown environment. This work isolates exploration as the sole objective, tasking the agent with delivering information that enhances future returns. Within this framework, we argue that measuring agent returns is not sufficient for a fair evaluation and decompose missing rewards into exploration and exploitation components based on the optimal achievable return. Comprehensive experiments with various models reveal that most struggle to sufficiently explore the state-space and weak exploration is insufficient. We observe a positive correlation between parameter count and exploration performance, with larger models demonstrating superior capabilities. Furthermore, we show that our decomposition provides insights into differences in behaviors driven by prompt engineering, offering a valuable tool for refining performance in exploratory tasks.
- Abstract(参考訳): 探索は自己改善とオープンな問題解決にとって重要なスキルです。
しかし、大きな言語モデルが未知の環境で状態空間を効果的に探索できるかどうかは不明である。
この作業は、探究を唯一の目的として分離し、エージェントに将来のリターンを高める情報の提供を任せる。
本枠組みでは, 適正な評価を行うには, エージェントの戻り値を測定するだけでは十分ではないと論じ, 最適達成可能な戻り値に基づいて, 探索と搾取の構成要素に未払いの報酬を分解する。
様々なモデルによる包括的実験により、ほとんどの場合、状態空間と弱い探査が不十分であることが明らかとなった。
パラメータカウントと探索性能の正の相関を観測し,より大きなモデルで優れた性能を示す。
さらに,本研究では, 探索作業における性能改善のための貴重なツールとして, 迅速なエンジニアリングによる動作の差異に関する洞察を提供する。
関連論文リスト
- Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models [8.255197802529118]
CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。
導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。
基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T20:05:45Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Efficient Exploration for LLMs [27.59380499111532]
我々は,大規模な言語モデルを改善するために,人間のフィードバックを収集する際の効率的な探索の実質的なメリットを示す。
実験では,受信したフィードバックに報酬モデルを適用しながら,エージェントが逐次クエリを生成する。
その結果,効率の良い探索により,クエリをはるかに少なくして高いレベルの性能を実現することができた。
論文 参考訳(メタデータ) (2024-02-01T07:32:24Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。