論文の概要: In-Context Learning as Nonparametric Conditional Probability Estimation: Risk Bounds and Optimality
- arxiv url: http://arxiv.org/abs/2508.08673v2
- Date: Sun, 31 Aug 2025 10:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.607442
- Title: In-Context Learning as Nonparametric Conditional Probability Estimation: Risk Bounds and Optimality
- Title(参考訳): 非パラメトリック条件確率推定としてのインコンテキスト学習:リスク境界と最適性
- Authors: Chenrui Liu, Falong Tan, Chuanlong Xie, Yicheng Zeng, Lixing Zhu,
- Abstract要約: 我々は各タスクをラベル付き例のシーケンスとして形式化し、次にクエリ入力を行い、事前訓練されたモデルがクエリの条件付きクラス確率を推定する。
予測余剰リスクは、予測された条件クラス分布と真条件クラス分布の間の平均トラルバック・リーブラー(KL)偏差として定義される。
我々は、このリスクに対して、KLの発散に基づく新しいオラクルの不等式を、マルチクラス分類において確立する。
- 参考スコア(独自算出の注目度): 9.893068784551879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the expected excess risk of in-context learning (ICL) for multiclass classification. We formalize each task as a sequence of labeled examples followed by a query input; a pretrained model then estimates the query's conditional class probabilities. The expected excess risk is defined as the average truncated Kullback-Leibler (KL) divergence between the predicted and true conditional class distributions over a specified family of tasks. We establish a new oracle inequality for this risk, based on KL divergence, in multiclass classification. This yields tight upper and lower bounds for transformer-based models, showing that the ICL estimator achieves the minimax optimal rate (up to logarithmic factors) for conditional probability estimation. From a technical standpoint, our results introduce a novel method for controlling generalization error via uniform empirical entropy. We further demonstrate that multilayer perceptrons (MLPs) can also perform ICL and attain the same optimal rate (up to logarithmic factors) under suitable assumptions, suggesting that effective ICL need not be exclusive to transformer architectures.
- Abstract(参考訳): 本稿では,マルチクラス分類におけるテキスト内学習(ICL)の過剰なリスクについて検討する。
我々は各タスクをラベル付き例のシーケンスとして形式化し、次にクエリ入力を行い、事前訓練されたモデルがクエリの条件付きクラス確率を推定する。
予測余剰リスクは、特定のタスクの族上の予測クラスと真の条件クラス分布の間の平均的切り離されたクルバック・リーバー(KL)のばらつきとして定義される。
我々は、このリスクに対して、KLの発散に基づく新しいオラクルの不等式を、マルチクラス分類において確立する。
これにより、変換器モデルに対する上と下の境界が強くなり、ICL推定器が条件付き確率推定の最小値(対数因子まで)を達成することが示される。
技術的観点から,一様経験的エントロピーによる一般化誤差を制御する新しい手法を提案する。
さらに、多層パーセプトロン(MLP)は、適切な仮定の下でICLを実行し、同じ最適率(対数因子まで)を達成することができることを実証し、効果的なICLはトランスフォーマーアーキテクチャに排他的である必要はないことを示唆する。
関連論文リスト
- Uncertainty Estimation by Flexible Evidential Deep Learning [11.945854832533234]
不確実性(UQ)は、高度なアプリケーションに機械学習モデルをデプロイするために不可欠である。
Evidential Deep Learning (EDL) は、クラス確率上のディリクレ分布の予測を通じて不確実性をモデル化することで効率を向上する。
クラス確率よりもフレキシブルなディリクレ分布(ディリクレ分布の一般化)を予測することでEDLを拡張する$mathcalF$-EDLを提案する。
論文 参考訳(メタデータ) (2025-10-21T06:12:33Z) - In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。
一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。
後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文 参考訳(メタデータ) (2025-10-13T03:42:31Z) - Probabilistic Variational Contrastive Learning [8.23660331371415]
我々は,エビデンスローバウンド(ELBO)を最大化するデコーダフリーフレームワークを提案する。
約$q_theta(z|x)$を投影正規分布としてモデル化し、確率的埋め込みのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-06-11T20:26:07Z) - Nonparametric logistic regression with deep learning [1.0589208420411012]
非パラメトリックロジスティック回帰では、クルバック・リーバーの発散は容易に発散できる。
余剰リスクを解析する代わりに、最大可能性推定器の一貫性を示すのに十分である。
重要な応用として、完全に接続されたディープニューラルネットワークを持つNPMLEの収束率を導出する。
論文 参考訳(メタデータ) (2024-01-23T04:31:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Learning from a Biased Sample [3.546358664345473]
本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
本研究では,健康調査データからメンタルヘルススコアの予測を行うケーススタディにおいて,提案手法を実証的に検証した。
論文 参考訳(メタデータ) (2022-09-05T04:19:16Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets [12.461503242570643]
emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
論文 参考訳(メタデータ) (2021-05-14T17:50:14Z) - Estimation and Applications of Quantiles in Deep Binary Classification [0.0]
チェック損失に基づく量子回帰は統計学において広く使われている推論パラダイムである。
二項分類設定におけるチェック損失の類似について考察する。
我々は、予測が信頼できるかどうかを判断するために使用できる個別信頼度スコアを開発する。
論文 参考訳(メタデータ) (2021-02-09T07:07:42Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。