論文の概要: Disentangling Exploration of Large Language Models by Optimal Exploitation
- arxiv url: http://arxiv.org/abs/2501.08925v1
- Date: Wed, 15 Jan 2025 16:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:42.210716
- Title: Disentangling Exploration of Large Language Models by Optimal Exploitation
- Title(参考訳): 最適爆発による大規模言語モデルの遠ざかる探索
- Authors: Tim Grams, Patrick Betz, Christian Bartelt,
- Abstract要約: 大規模言語モデルが状態空間を探索できるかどうかを評価する。
我々の実験は、ほとんどのモデルが状態空間を十分に探索するのに苦労していることを示している。
モデルサイズと探索性能の正の相関を観察し,より大きなモデルで優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.633554611703142
- License:
- Abstract: Exploration is a crucial skill for self-improvement and open-ended problem-solving. However, it remains uncertain whether large language models can effectively explore the state-space. Existing evaluations predominantly focus on the trade-off between exploration and exploitation, often assessed in multi-armed bandit problems. In contrast, this work isolates exploration as the sole objective, tasking the agent with delivering information that enhances future returns. For the evaluation, we propose to decompose missing rewards into exploration and exploitation components by measuring the optimal achievable return for the states already explored. Our experiments with various LLMs reveal that most models struggle to sufficiently explore the state-space and that weak exploration is insufficient. We observe a positive correlation between model size and exploration performance, with larger models demonstrating superior capabilities. Furthermore, we show that our decomposition provides insights into differences in behaviors driven by agent instructions during prompt engineering, offering a valuable tool for refining LLM performance in exploratory tasks.
- Abstract(参考訳): 探索は自己改善とオープンな問題解決にとって重要なスキルです。
しかし、大きな言語モデルが状態空間を効果的に探索できるかどうかは不明である。
既存の評価は主に、多武装の盗賊問題でしばしば評価される探索と搾取の間のトレードオフに焦点を当てている。
対照的に、この研究は探索を唯一の目的として分離し、エージェントに将来のリターンを高める情報の提供を任せる。
評価のために,すでに検討されている状態に対する最適達成可能なリターンを計測することにより,不足した報酬を探索・搾取コンポーネントに分解することを提案する。
種々のLSMを用いた実験により、ほとんどのモデルでは状態空間を十分に探索するのに苦労しており、弱い探索は不十分であることが判明した。
モデルサイズと探索性能の正の相関を観察し,より大きなモデルで優れた性能を示す。
さらに,本研究では,エージェントの指示によって引き起こされる動作の違いを解明し,探索作業におけるLLM性能を向上するための貴重なツールを提供する。
関連論文リスト
- Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models [8.255197802529118]
CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。
導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。
基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T20:05:45Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Efficient Exploration for LLMs [27.59380499111532]
我々は,大規模な言語モデルを改善するために,人間のフィードバックを収集する際の効率的な探索の実質的なメリットを示す。
実験では,受信したフィードバックに報酬モデルを適用しながら,エージェントが逐次クエリを生成する。
その結果,効率の良い探索により,クエリをはるかに少なくして高いレベルの性能を実現することができた。
論文 参考訳(メタデータ) (2024-02-01T07:32:24Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。