論文の概要: Learning to Explore: An In-Context Learning Approach for Pure Exploration
- arxiv url: http://arxiv.org/abs/2506.01876v1
- Date: Mon, 02 Jun 2025 17:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.618999
- Title: Learning to Explore: An In-Context Learning Approach for Pure Exploration
- Title(参考訳): Learning to Explore: 純粋探索のための文脈内学習アプローチ
- Authors: Alessio Russo, Ryan Welch, Aldo Pacchiano,
- Abstract要約: 本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説試験問題について検討する。
In-Context Pure Exploration (ICPE, In-Context Pure Exploration) は, Transformer を用いて経験から直接探索戦略を学習する,コンテキスト内学習手法である。
ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
- 参考スコア(独自算出の注目度): 23.16863295063427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the active sequential hypothesis testing problem, also known as pure exploration, where the goal is to actively control a data collection process to efficiently identify the correct hypothesis underlying a decision problem. While relevant across multiple domains, devising adaptive exploration strategies remains challenging, particularly due to difficulties in encoding appropriate inductive biases. Existing Reinforcement Learning (RL)-based methods often underperform when relevant information structures are inadequately represented, whereas more complex methods, like Best Arm Identification (BAI) techniques, may be difficult to devise and typically rely on explicit modeling assumptions. To address these limitations, we introduce In-Context Pure Exploration (ICPE), an in-context learning approach that uses Transformers to learn exploration strategies directly from experience. ICPE combines supervised learning and reinforcement learning to identify and exploit latent structure across related tasks, without requiring prior assumptions. Numerical results across diverse synthetic and semi-synthetic benchmarks highlight ICPE's capability to achieve robust performance performance in deterministic, stochastic, and structured settings. These results demonstrate ICPE's ability to match optimal instance-dependent algorithms using only deep learning techniques, making it a practical and general approach to data-efficient exploration.
- Abstract(参考訳): そこで本研究では,データ収集過程を積極的に制御し,決定問題の根底にある正しい仮説を効率的に同定することを目的とする。
複数の領域に関連があるが、適応的な探索戦略の策定は、特に適切な帰納的バイアスを符号化する難しさのために、依然として困難である。
既存の強化学習(RL)ベースの手法は、関連する情報構造が不十分に表現されている場合、しばしば性能が低下するが、Best Arm Identification(BAI)技術のようなより複雑な手法は、考案が困難であり、典型的には明示的なモデリング仮定に依存している。
これらの制約に対処するために,Transformer を用いて経験から直接探索戦略を学習するコンテキスト内学習アプローチである In-Context Pure Exploration (ICPE) を導入する。
ICPEは教師付き学習と強化学習を組み合わせて、事前の仮定を必要とせず、関連するタスクをまたいだ潜在構造を特定し、活用する。
様々な合成および半合成ベンチマークの数値的な結果は、決定論的、確率的、構造化された設定で堅牢な性能を実現するICPEの能力を強調している。
これらの結果は、深層学習技術のみを用いて最適なインスタンス依存アルゴリズムをマッチングするICPEの能力を実証し、データ効率探索の実践的で一般的なアプローチであることを示す。
関連論文リスト
- In-Context Learning for Pure Exploration in Continuous Spaces [26.001092687873125]
純粋探索とも呼ばれる能動的シーケンシャルテストでは、学習者は情報を適応的に取得する目的を負う。
C-ICPE-TSは、観測履歴を次の連続的なクエリアクションにマッピングするために、ディープニューラルネットワークポリシーをメタトレーニングするアルゴリズムである。
推論時には、C-ICPE-TSは未確認タスクの証拠を積極的に収集し、パラメータ更新や明示的な手作り情報モデルなしで真の仮説を推測する。
論文 参考訳(メタデータ) (2026-02-20T04:20:47Z) - Adaptive Retrieval helps Reasoning in LLMs -- but mostly if it's not used [19.370220750406755]
大規模言語モデル(LLM)は静的なパラメトリックな知識のため、複雑な推論タスクでしばしば失敗する。
この研究は、生成モデルを強化するための基本原理を探求し、動的文脈内学習の一形態として検索を扱います。
論文 参考訳(メタデータ) (2026-02-06T21:48:26Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach [1.5498930424110338]
大規模言語モデル(LLM)は、統計的因果発見(CD)アプローチを有望に補完する。
機械学習における公平性を保証するには、センシティブな属性が結果に因果的にどのように影響するかを理解する必要がある。
本稿では,BFS(Broadth-first Search)戦略を拡張し,アクティブラーニングと動的スコアリングを併用したCD用LLMベースのハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T21:04:03Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Understanding active learning of molecular docking and its applications [0.6554326244334868]
本研究では,2次元構造のみを用いて,能動的学習手法がドッキングスコアを効果的に予測する方法を検討する。
以上の結果から,サロゲートモデルではドッキング量の高い化合物に代表される構造パターンを記憶する傾向が示唆された。
我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。
論文 参考訳(メタデータ) (2024-06-14T05:43:42Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration [17.27164535440641]
後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
論文 参考訳(メタデータ) (2023-02-08T18:35:24Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity
Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。
クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。
FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2022-05-11T17:23:37Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。