論文の概要: Learning to Explore: An In-Context Learning Approach for Pure Exploration
- arxiv url: http://arxiv.org/abs/2506.01876v1
- Date: Mon, 02 Jun 2025 17:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.618999
- Title: Learning to Explore: An In-Context Learning Approach for Pure Exploration
- Title(参考訳): Learning to Explore: 純粋探索のための文脈内学習アプローチ
- Authors: Alessio Russo, Ryan Welch, Aldo Pacchiano,
- Abstract要約: 本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。
In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。
ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
- 参考スコア(独自算出の注目度): 23.16863295063427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the active sequential hypothesis testing problem, also known as pure exploration, where the goal is to actively control a data collection process to efficiently identify the correct hypothesis underlying a decision problem. While relevant across multiple domains, devising adaptive exploration strategies remains challenging, particularly due to difficulties in encoding appropriate inductive biases. Existing Reinforcement Learning (RL)-based methods often underperform when relevant information structures are inadequately represented, whereas more complex methods, like Best Arm Identification (BAI) techniques, may be difficult to devise and typically rely on explicit modeling assumptions. To address these limitations, we introduce In-Context Pure Exploration (ICPE), an in-context learning approach that uses Transformers to learn exploration strategies directly from experience. ICPE combines supervised learning and reinforcement learning to identify and exploit latent structure across related tasks, without requiring prior assumptions. Numerical results across diverse synthetic and semi-synthetic benchmarks highlight ICPE's capability to achieve robust performance performance in deterministic, stochastic, and structured settings. These results demonstrate ICPE's ability to match optimal instance-dependent algorithms using only deep learning techniques, making it a practical and general approach to data-efficient exploration.
- Abstract(参考訳): そこで本研究では,データ収集過程を積極的に制御し,決定問題の根底にある正しい仮説を効率的に同定することを目的とする。
複数の領域に関連があるが、適応的な探索戦略の策定は、特に適切な帰納的バイアスを符号化する難しさのために、依然として困難である。
既存の強化学習(RL)ベースの手法は、関連する情報構造が不十分に表現されている場合、しばしば性能が低下するが、Best Arm Identification(BAI)技術のようなより複雑な手法は、考案が困難であり、典型的には明示的なモデリング仮定に依存している。
これらの制約に対処するために,Transformer を用いて経験から直接探索戦略を学習するコンテキスト内学習アプローチである In-Context Pure Exploration (ICPE) を導入する。
ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
様々な合成および半合成ベンチマークの数値的な結果は、決定論的、確率的、構造化された設定で堅牢な性能を実現するICPEの能力を強調している。
これらの結果は、深層学習技術のみを用いて最適なインスタンス依存アルゴリズムをマッチングするICPEの能力を実証し、データ効率探索の実践的で一般的なアプローチであることを示す。
関連論文リスト
- Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。