論文の概要: In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly
- arxiv url: http://arxiv.org/abs/2506.19351v1
- Date: Tue, 24 Jun 2025 06:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.513069
- Title: In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly
- Title(参考訳): In-Context Occam's Razor:トランスフォーマーがフライでより単純な仮説を優先する方法
- Authors: Puneesh Deora, Bhavya Vasudeva, Tina Behnia, Christos Thrampoulidis,
- Abstract要約: In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。
本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
- 参考スコア(独自算出の注目度): 25.47694115798524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables transformers to adapt to new tasks through contextual examples without parameter updates. While existing research has typically studied ICL in fixed-complexity environments, practical language models encounter tasks spanning diverse complexity levels. This paper investigates how transformers navigate hierarchical task structures where higher-complexity categories can perfectly represent any pattern generated by simpler ones. We design well-controlled testbeds based on Markov chains and linear regression that reveal transformers not only identify the appropriate complexity level for each task but also accurately infer the corresponding parameters--even when the in-context examples are compatible with multiple complexity hypotheses. Notably, when presented with data generated by simpler processes, transformers consistently favor the least complex sufficient explanation. We theoretically explain this behavior through a Bayesian framework, demonstrating that transformers effectively implement an in-context Bayesian Occam's razor by balancing model fit against complexity penalties. We further ablate on the roles of model size, training mixture distribution, inference context length, and architecture. Finally, we validate this Occam's razor-like inductive bias on a pretrained GPT-4 model with Boolean-function tasks as case study, suggesting it may be inherent to transformers trained on diverse task distributions.
- Abstract(参考訳): In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。
既存の研究では、固定複雑環境においてICLを研究するのが一般的であるが、実用的な言語モデルは様々な複雑さレベルにまたがるタスクに遭遇する。
本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
我々は,マルコフ連鎖と線形回帰に基づくよく制御されたテストベッドを設計し,各タスクに対して適切な複雑性レベルを識別するだけでなく,コンテキスト内例が複数の複雑性仮説と互換性がある場合でも,対応するパラメータを正確に推測するトランスフォーマーを明らかにする。
特に、より単純なプロセスによって生成されたデータで表されるとき、トランスフォーマーは一貫して、最も複雑な十分な説明を好んでいる。
我々はこの挙動をベイズ的枠組みを通じて理論的に説明し、変換器が複雑性のペナルティに適合するモデルのバランスをとることで、文脈内ベイズ的オッカムのカミソリを効果的に実装できることを実証した。
さらに、モデルのサイズ、混合分布の訓練、推論コンテキストの長さ、アーキテクチャの役割について検討する。
最後に、このオッカムのカミソリ様誘導バイアスを、ブール関数タスクをケーススタディとして、事前訓練したGPT-4モデルに対して検証し、多様なタスク分布で訓練されたトランスフォーマーに固有のものであることを示唆する。
関連論文リスト
- Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。