論文の概要: Next-Token Prediction Should be Ambiguity-Sensitive: A Meta-Learning Perspective
- arxiv url: http://arxiv.org/abs/2506.16288v1
- Date: Thu, 19 Jun 2025 13:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.078607
- Title: Next-Token Prediction Should be Ambiguity-Sensitive: A Meta-Learning Perspective
- Title(参考訳): 次世代予測はあいまいさに敏感であるべきだ:メタラーニングの視点から
- Authors: Leo Gagnon, Eric Elmoznino, Sarthak Mittal, Tom Marty, Tejas Kasetty, Dhanya Sridhar, Guillaume Lajoie,
- Abstract要約: 我々は,トランスフォーマーがモデルサイズ全体にわたって高いあいまいさの予測に苦慮していることを示す。
予備的な結果は、キャパシティアロケーションの改善とテストタイムのスケーラブルな推論を通じて、あいまいな文脈でかなりの増加を示す。
- 参考スコア(独自算出の注目度): 12.655285605773932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adaptation ability of auto-regressive foundation models is often attributed to the diversity of their pre-training data. This is because, from a Bayesian standpoint, minimizing prediction error in such settings requires integrating over all plausible latent hypotheses consistent with observations. While this behavior is desirable in principle, it often proves too ambitious in practice: under high ambiguity, the number of plausible latent alternatives makes Bayes-optimal prediction computationally intractable. Cognitive science has long recognized this limitation, suggesting that under such conditions, heuristics or information-seeking strategies are preferable to exhaustive inference. Translating this insight to next-token prediction, we hypothesize that low- and high-ambiguity predictions pose different computational demands, making ambiguity-agnostic next-token prediction a detrimental inductive bias. To test this, we introduce MetaHMM, a synthetic sequence meta-learning benchmark with rich compositional structure and a tractable Bayesian oracle. We show that Transformers indeed struggle with high-ambiguity predictions across model sizes. Motivated by cognitive theories, we propose a method to convert pre-trained models into Monte Carlo predictors that decouple task inference from token prediction. Preliminary results show substantial gains in ambiguous contexts through improved capacity allocation and test-time scalable inference, though challenges remain.
- Abstract(参考訳): 自己回帰基礎モデルの迅速な適応能力は、しばしば事前学習データの多様性に起因する。
これは、ベイズ的な観点から、そのような設定における予測誤差を最小化するためには、観測と整合したすべての可算潜在仮説を統合する必要があるためである。
この振る舞いは原則として望ましいが、実際は野心的すぎることがしばしば証明される:高いあいまいさの下では、有望な潜在代替品の数がベイズ最適予測を計算的に難解にする。
認知科学は長い間この制限を認識しており、そのような条件下では、ヒューリスティックスや情報探索戦略が徹底的な推論よりも好ましいことを示唆している。
この知見を次トーケン予測に変換することにより、低曖昧な予測と高曖昧な予測が異なる計算要求を生じさせ、あいまいさに依存しない次のトーケン予測を有害な帰納バイアスにする、という仮説を立てる。
これをテストするためにMetaHMMという,豊富な構成構造を持つ合成シーケンスメタラーニングベンチマークと,抽出可能なベイズオラクルを紹介する。
我々は,トランスフォーマーがモデルサイズ全体にわたって高いあいまいさの予測に苦慮していることを示す。
本稿では,事前学習したモデルをモンテカルロ予測器に変換し,トークン予測からタスク推論を分離する手法を提案する。
予備的な結果は、キャパシティアロケーションの改善とテストタイムのスケーラブルな推論を通じて、あいまいな文脈でかなりの増加を示しているが、課題は残る。
関連論文リスト
- Exchangeable Sequence Models Quantify Uncertainty Over Latent Concepts [6.256239986541708]
事前学習されたシーケンスモデルは、交換可能なデータポイントよりも確率論的推論が可能であることを示す。
シーケンスモデルは、典型的なベイズモデルとは異なる観測間の関係を学習する。
シーケンス予測損失が不確実性定量化の品質を制御することを示す。
論文 参考訳(メタデータ) (2024-08-06T17:16:10Z) - Movement-Prediction-Adjusted Naïve Forecast [6.935130578959931]
本研究では,対称なランダムウォーク特性を示す時系列の移動予測・調整型ナイーブ予測を提案する。
調整されたNa"予測は、比較的低い方向精度でも統計的に有意な改善を達成した。
これらの結果から, 運動予測調整Na" 予測は, 対称ランダム歩行時系列の予測に有効な第2段階法として有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-20T16:32:18Z) - Predictive Inference with Feature Conformal Prediction [80.77443423828315]
本稿では,特徴空間への共形予測の範囲を拡大する特徴共形予測を提案する。
理論的観点からは、特徴共形予測は軽度の仮定の下で正則共形予測よりも確実に優れていることを示す。
提案手法は,バニラ共形予測だけでなく,他の適応共形予測手法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-10-01T02:57:37Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Set Prediction without Imposing Structure as Conditional Density
Estimation [40.86881969839325]
本研究では,学習を条件密度推定として見ることにより,設定損失による学習の代替を提案する。
本フレームワークは, 深部エネルギーモデルに適合し, 勾配誘導サンプリングによる難易度を近似する。
我々のアプローチは、標準ベンチマークの以前のセット予測モデルと競合する。
論文 参考訳(メタデータ) (2020-10-08T16:49:16Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。