Fugu-MT 論文翻訳(概要): Markov Chain Estimation with In-Context Learning

論文の概要: Markov Chain Estimation with In-Context Learning

arxiv url: http://arxiv.org/abs/2508.03934v1
Date: Tue, 05 Aug 2025 21:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-07 20:09:22.458539
Title: Markov Chain Estimation with In-Context Learning
Title（参考訳）: 文脈内学習によるマルコフ連鎖推定
Authors: Simon Lepage, Jeremie Mary, David Picard,
Abstract要約: ランダムな遷移行列でマルコフ連鎖を設定し、次のトークンを予測するためにトランスフォーマーを訓練する。モデルがその文脈から遷移確率を推定できるようなトランスフォーマーサイズとトレーニングセットサイズにはしきい値が存在することを示す。
参考スコア（独自算出の注目度）: 10.757287948514604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the capacity of transformers to learn algorithms involving their context while solely being trained using next token prediction. We set up Markov chains with random transition matrices and we train transformers to predict the next token. Matrices used during training and test are different and we show that there is a threshold in transformer size and in training set size above which the model is able to learn to estimate the transition probabilities from its context instead of memorizing the training patterns. Additionally, we show that more involved encoding of the states enables more robust prediction for Markov chains with structures different than those seen during training.
Abstract（参考訳）: 我々は,次のトークン予測を用いて学習しながら,文脈を含むアルゴリズムを学習するトランスフォーマーの能力について検討する。ランダムな遷移行列でマルコフ連鎖を設定し、次のトークンを予測するためにトランスフォーマーを訓練する。トレーニングやテストで使用する行列は異なり,モデルがトレーニングパターンを記憶するのではなく,そのコンテキストから遷移確率を推定できるような,トランスフォーマーサイズとトレーニングセットサイズにしきい値が存在することを示す。さらに、より関連する状態の符号化により、トレーニング中に見られるものと異なる構造を持つマルコフ連鎖のより堅牢な予測が可能になることを示す。

関連論文リスト

Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文参考訳（メタデータ） (2024-10-06T06:04:23Z)
Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文参考訳（メタデータ） (2024-10-02T17:30:21Z)
The Evolution of Statistical Induction Heads: In-Context Learning Markov Chains [28.41876902994335]
In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:36Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
End-to-End Training of a Neural HMM with Label and Transition Probabilities [36.32865468394113]
隠れマルコフモデル(HMM)を用いたエンドツーエンドニューラルネットワークトレーニングのための新しいモデリング手法について検討する。提案手法では,時間統計を暗黙的にエンコードするブランクラベルとは対照的に,セグメント間の遷移に関する明示的で学習可能な確率が存在する。トランジションモデルトレーニングでは認識性能は向上しないが,アライメント品質に肯定的な影響を与えることがわかった。
論文参考訳（メタデータ） (2023-10-04T10:56:00Z)
Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文参考訳（メタデータ） (2023-08-18T13:20:08Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文参考訳（メタデータ） (2023-06-16T15:50:03Z)
What learning algorithm is in-context learning? Investigations with linear models [87.91612418166464]
本稿では,トランスフォーマーに基づくインコンテキスト学習者が標準学習アルゴリズムを暗黙的に実装する仮説について検討する。訓練された文脈内学習者は、勾配降下、隆起回帰、および正確な最小二乗回帰によって計算された予測値と密に一致していることを示す。文脈内学習者がこれらの予測器とアルゴリズム的特徴を共有するという予備的証拠。
論文参考訳（メタデータ） (2022-11-28T18:59:51Z)
Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文参考訳（メタデータ） (2021-09-03T09:25:57Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。