論文の概要: In-Context Learning for Pure Exploration
- arxiv url: http://arxiv.org/abs/2506.01876v2
- Date: Mon, 06 Oct 2025 16:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.058479
- Title: In-Context Learning for Pure Exploration
- Title(参考訳): 純粋探索のためのインコンテキスト学習
- Authors: Alessio Russo, Ryan Welch, Aldo Pacchiano,
- Abstract要約: 本研究は, 純粋探索(Pure Exploring)としても知られる, 能動的逐次仮説検定の課題について考察する。
In-Context Pure Exploration (ICPE)を導入し、トランスフォーマーをメタトレーニングして、観測履歴をクエリアクションと予測仮説にマッピングする。
ICPEは、新しいタスクの証拠を積極的に収集し、パラメータの更新なしに真の仮説を推測する。
- 参考スコア(独自算出の注目度): 28.404325855738502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem active sequential hypothesis testing, also known as pure exploration: given a new task, the learner adaptively collects data from the environment to efficiently determine an underlying correct hypothesis. A classical instance of this problem is the task of identifying the best arm in a multi-armed bandit problem (a.k.a. BAI, Best-Arm Identification), where actions index hypotheses. Another important case is generalized search, a problem of determining the correct label through a sequence of strategically selected queries that indirectly reveal information about the label. In this work, we introduce In-Context Pure Exploration (ICPE), which meta-trains Transformers to map observation histories to query actions and a predicted hypothesis, yielding a model that transfers in-context. At inference time, ICPE actively gathers evidence on new tasks and infers the true hypothesis without parameter updates. Across deterministic, stochastic, and structured benchmarks, including BAI and generalized search, ICPE is competitive with adaptive baselines while requiring no explicit modeling of information structure. Our results support Transformers as practical architectures for general sequential testing.
- Abstract(参考訳): 新しい課題が与えられた場合、学習者は環境からデータを適応的に収集し、基礎となる正しい仮説を効率的に決定する。
この問題の古典的な例は、アクション・インデックスが仮定する多腕バンディット問題(BAI、Best-Arm Identification)におけるベスト・アームを識別するタスクである。
もうひとつの重要なケースは、ラベルに関する情報を間接的に明らかにする戦略的に選択されたクエリのシーケンスを通じて、正しいラベルを決定するという問題である、一般化検索である。
In-Context Pure Exploration (ICPE)を導入し、メタトレーナーが観測履歴をクエリアクションと予測仮説にマッピングし、インコンテキストを転送するモデルを生成する。
推論時にICPEは、新しいタスクの証拠を積極的に収集し、パラメータの更新なしに真の仮説を推測する。
BAIや一般化検索を含む決定論的、確率的、構造化されたベンチマーク全体において、ICPEは情報構造の明示的なモデリングを必要とせず、適応的ベースラインと競合する。
本研究は,一般的なシーケンシャルテストのための実用的なアーキテクチャとしてトランスフォーマーをサポートする。
関連論文リスト
- In-Context Learning for Pure Exploration in Continuous Spaces [26.001092687873125]
純粋探索とも呼ばれる能動的シーケンシャルテストでは、学習者は情報を適応的に取得する目的を負う。
C-ICPE-TSは、観測履歴を次の連続的なクエリアクションにマッピングするために、ディープニューラルネットワークポリシーをメタトレーニングするアルゴリズムである。
推論時には、C-ICPE-TSは未確認タスクの証拠を積極的に収集し、パラメータ更新や明示的な手作り情報モデルなしで真の仮説を推測する。
論文 参考訳(メタデータ) (2026-02-20T04:20:47Z) - Adaptive Retrieval helps Reasoning in LLMs -- but mostly if it's not used [19.370220750406755]
大規模言語モデル(LLM)は静的なパラメトリックな知識のため、複雑な推論タスクでしばしば失敗する。
この研究は、生成モデルを強化するための基本原理を探求し、動的文脈内学習の一形態として検索を扱います。
論文 参考訳(メタデータ) (2026-02-06T21:48:26Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - Uncovering Bias Paths with LLM-guided Causal Discovery: An Active Learning and Dynamic Scoring Approach [1.5498930424110338]
大規模言語モデル(LLM)は、統計的因果発見(CD)アプローチを有望に補完する。
機械学習における公平性を保証するには、センシティブな属性が結果に因果的にどのように影響するかを理解する必要がある。
本稿では,BFS(Broadth-first Search)戦略を拡張し,アクティブラーニングと動的スコアリングを併用したCD用LLMベースのハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T21:04:03Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Causality-Aware Transformer Networks for Robotic Navigation [13.719643934968367]
Visual Navigationの現在の研究は、改善の機会を明らかにしている。
RNNとTransformerの直接的な採用はしばしば、Embodied AIと従来のシーケンシャルなデータモデリングの具体的な違いを見落としている。
因果理解モジュールを特徴とするナビゲーション用因果認識変換器(CAT)ネットワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T12:53:26Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Understanding active learning of molecular docking and its applications [0.6554326244334868]
本研究では,2次元構造のみを用いて,能動的学習手法がドッキングスコアを効果的に予測する方法を検討する。
以上の結果から,サロゲートモデルではドッキング量の高い化合物に代表される構造パターンを記憶する傾向が示唆された。
我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。
論文 参考訳(メタデータ) (2024-06-14T05:43:42Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration [17.27164535440641]
後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
論文 参考訳(メタデータ) (2023-02-08T18:35:24Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity
Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。
クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。
FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2022-05-11T17:23:37Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。