Fugu-MT 論文翻訳(概要): Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

論文の概要: Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

arxiv url: http://arxiv.org/abs/2603.10573v1
Date: Wed, 11 Mar 2026 09:25:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.874113
Title: Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context
Title（参考訳）: 変圧器の暗黙的統計的推論--文脈における類似度テストの近似
Authors: Faris Chaudhry, Siddhant Gadkari,
Abstract要約: In-context Learning (ICL)は、トランスフォーマーがウェイトアップなしで新しいタスクに適応できるようにする。単純な二項仮説テストによる統計的決定論的な視点を採用する。 ICLは、単純な類似性マッチングではなく、タスク適応型統計推定器の構築から生じることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) allows Transformers to adapt to novel tasks without weight updates, yet the underlying algorithms remain poorly understood. We adopt a statistical decision-theoretic perspective by investigating simple binary hypothesis testing, where the optimal policy is determined by the likelihood-ratio test. Notably, this setup provides a mathematically rigorous setting for mechanistic interpretability where the target algorithmic ground truth is known. By training Transformers on tasks requiring distinct geometries (linear shifted means vs. nonlinear variance estimation), we demonstrate that the models approximate the Bayes-optimal sufficient statistics from context up to some monotonic transformation, matching the performance of an ideal oracle estimator in nonlinear regimes. Leveraging this analytical ground truth, mechanistic analysis via logit lens and circuit alignment suggests that the model does not rely on a fixed kernel smoothing heuristic. Instead, it appears to adapt the point at which decisions become linearly decodable: exhibiting patterns consistent with a voting-style ensemble for linear tasks while utilizing a deeper sequential computation for nonlinear tasks. These findings suggest that ICL emerges from the construction of task-adaptive statistical estimators rather than simple similarity matching.
Abstract（参考訳）: In-context Learning (ICL) では、トランスフォーマーはウェイト更新なしで新しいタスクに適応できるが、基礎となるアルゴリズムは未理解のままである。確率比検定により最適方針が決定される単純な二分仮説検定を検証し,統計的決定論的な視点を採用する。特に、この設定は、対象のアルゴリズム基底真理が知られている機械的解釈可能性に関する数学的に厳密な設定を提供する。異なるジオメトリを必要とするタスク(線形シフト平均と非線形分散推定)に対してトランスフォーマーを訓練することにより、非線形状態における理想的なオラクル推定器の性能と一致する、文脈からある種のモノトニック変換までのベイズ最適十分統計量に近似したモデルを実証する。この解析的基底真理を利用して、ロジットレンズと回路アライメントによる力学解析は、モデルが固定されたカーネルスムーズなヒューリスティックに依存していないことを示唆している。より深い逐次計算を非線形タスクに利用しながら、線形タスクに対する投票スタイルのアンサンブルと整合したパターンを示す。これらの結果から, ICLは単純な類似性マッチングではなく, タスク適応型統計推定器の構築から生じることが示唆された。

関連論文リスト

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文参考訳（メタデータ） (2025-10-13T03:42:31Z)
Statistical Inference for Misspecified Contextual Bandits [6.178061357164435]
コンテキストバンディットアルゴリズムは、パーソナライズされた治療のためのリアルタイム適応を可能にすることで、近代的な実験を変革した。しかし、これらの利点は適応性による統計的推測の課題を生み出す。収束は適応実験の再現性とオンラインアルゴリズムの安定性を保証する。
論文参考訳（メタデータ） (2025-09-08T02:19:37Z)
Adaptive Learning-based Surrogate Method for Stochastic Programs with Implicitly Decision-dependent Uncertainty [1.5412450351033007]
暗黙的に決定に依存した確率変数が非パラメトリック回帰モデルに従属するプログラミング問題のクラスを考える。本研究では,シミュレーションスキームと統計的推定を統合した適応学習に基づく代理法を開発し,推定に基づく代理関数を構築する。
論文参考訳（メタデータ） (2025-05-12T07:35:06Z)
Adaptive Conformal Inference by Betting [51.272991377903274]
データ生成プロセスについて仮定することなく適応型共形推論の問題を考察する。適応型共形推論のための既存のアプローチは、オンライン勾配勾配の変種を用いたピンボール損失の最適化に基づいている。本稿では,パラメータフリーなオンライン凸最適化手法を利用した適応型共形推論手法を提案する。
論文参考訳（メタデータ） (2024-12-26T18:42:08Z)
How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文参考訳（メタデータ） (2023-10-12T15:01:43Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
The Power of Learned Locally Linear Models for Nonlinear Policy Optimization [26.45568696453259]
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。非線形系力学の局所線形モデルの推定と$mathttiLQR$のようなポリシー更新の繰り返しを行うアルゴリズムを解析する。
論文参考訳（メタデータ） (2023-05-16T17:13:00Z)
Combining Gaussian processes and polynomial chaos expansions for stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文参考訳（メタデータ） (2021-03-09T14:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。