論文の概要: In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly
- arxiv url: http://arxiv.org/abs/2506.19351v1
- Date: Tue, 24 Jun 2025 06:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.513069
- Title: In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly
- Title(参考訳): In-Context Occam's Razor:トランスフォーマーがフライでより単純な仮説を優先する方法
- Authors: Puneesh Deora, Bhavya Vasudeva, Tina Behnia, Christos Thrampoulidis,
- Abstract要約: In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。
本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
- 参考スコア(独自算出の注目度): 25.47694115798524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) enables transformers to adapt to new tasks through contextual examples without parameter updates. While existing research has typically studied ICL in fixed-complexity environments, practical language models encounter tasks spanning diverse complexity levels. This paper investigates how transformers navigate hierarchical task structures where higher-complexity categories can perfectly represent any pattern generated by simpler ones. We design well-controlled testbeds based on Markov chains and linear regression that reveal transformers not only identify the appropriate complexity level for each task but also accurately infer the corresponding parameters--even when the in-context examples are compatible with multiple complexity hypotheses. Notably, when presented with data generated by simpler processes, transformers consistently favor the least complex sufficient explanation. We theoretically explain this behavior through a Bayesian framework, demonstrating that transformers effectively implement an in-context Bayesian Occam's razor by balancing model fit against complexity penalties. We further ablate on the roles of model size, training mixture distribution, inference context length, and architecture. Finally, we validate this Occam's razor-like inductive bias on a pretrained GPT-4 model with Boolean-function tasks as case study, suggesting it may be inherent to transformers trained on diverse task distributions.
- Abstract(参考訳): In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。
既存の研究では、固定複雑環境においてICLを研究するのが一般的であるが、実用的な言語モデルは様々な複雑さレベルにまたがるタスクに遭遇する。
本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
我々は,マルコフ連鎖と線形回帰に基づくよく制御されたテストベッドを設計し,各タスクに対して適切な複雑性レベルを識別するだけでなく,コンテキスト内例が複数の複雑性仮説と互換性がある場合でも,対応するパラメータを正確に推測するトランスフォーマーを明らかにする。
特に、より単純なプロセスによって生成されたデータで表されるとき、トランスフォーマーは一貫して、最も複雑な十分な説明を好んでいる。
我々はこの挙動をベイズ的枠組みを通じて理論的に説明し、変換器が複雑性のペナルティに適合するモデルのバランスをとることで、文脈内ベイズ的オッカムのカミソリを効果的に実装できることを実証した。
さらに、モデルのサイズ、混合分布の訓練、推論コンテキストの長さ、アーキテクチャの役割について検討する。
最後に、このオッカムのカミソリ様誘導バイアスを、ブール関数タスクをケーススタディとして、事前訓練したGPT-4モデルに対して検証し、多様なタスク分布で訓練されたトランスフォーマーに固有のものであることを示唆する。
関連論文リスト
- Sample Complexity and Representation Ability of Test-time Scaling Paradigms [91.34339030453425]
テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。
本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。
単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
論文 参考訳(メタデータ) (2025-06-05T17:48:19Z) - Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:22:00Z) - Context-Scaling versus Task-Scaling in In-Context Learning [17.36757113301424]
In-Context Learning (ICL: In-Context Learning) の2つの重要なコンポーネント、コンテキストスケーリングとタスクスケーリングを分析します。
コンテクストスケーリングとタスクスケーリングの両方が可能であるが、ベクトル化された入力を持つ標準的なマルチ層パーセプトロン(MLP)はタスクスケーリングしかできないことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-16T17:58:08Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks [44.99833362998488]
複雑なタスクを単純なサブタスクに分割する手法を提案する。
複数のトランスモデルは、それぞれ1つのサブタスクに微調整され、複雑なタスクを達成するために並べられる。
これにより、微調整データセットのコンパイルが簡単になり、全体的な可制御性が向上する。
論文 参考訳(メタデータ) (2023-10-25T18:00:15Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。