論文の概要: Transformers perform adaptive partial pooling
- arxiv url: http://arxiv.org/abs/2602.03980v1
- Date: Tue, 03 Feb 2026 20:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.259034
- Title: Transformers perform adaptive partial pooling
- Title(参考訳): トランスフォーマーは適応的な部分プールを実行します
- Authors: Vsevolod Kapatsinski,
- Abstract要約: 階層的回帰では、ある文脈における行動に対するモデルの予測は、他の類似した文脈からの観測に影響される。
これはアダプティブ部分プールと呼ばれる。
本稿では,変圧器(GPT2)の次単語予測が,現在の文脈外からの観測の影響を受けない傾向にあることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Because language is creative, any reasonable language model must generalize, deciding what to say in novel contexts by using information from similar contexts. But what about contexts that are not novel but merely infrequent? In hierarchical regression, the model's predictions for behavior in a context are affected by observations from other similar contexts to the extent that 1) the current context is infrequent and 2) different contexts behave similarly. This is called adaptive partial pooling of evidence. This paper shows that next-word predictions of a transformer (GPT2) are increasingly unaffected by observations from outside the current context across epochs of training (the amount of pooling reduces with training), and that the extent of pooling is affected by context frequency, context number (type frequency) and context variability in a similar way to hierarchical regression. These characteristics of learning in transformers are argued to be realistic on both rational and empirical grounds.
- Abstract(参考訳): 言語は創造的であるため、任意の合理的言語モデルは、類似した文脈からの情報を使用することで、新しい文脈で何を言おうかを決定する必要がある。
しかし、新しいものではなく、単に稀な文脈はどうだろうか?
階層的回帰では、ある文脈における行動に対するモデルの予測は、他の類似した文脈からの観察によって影響を受ける。
1)現在の文脈はまれで、
2) 異なる文脈でも同様に振る舞う。
これはアダプティブ部分プールと呼ばれる。
本稿では, 変圧器(GPT2)の次単語予測は, 学習のエポックスにおける現在の文脈外からの観測(学習に伴うプール量の減少)の影響が増大しており, プールの程度は, 階層的回帰と同様の文脈周波数, 文脈数(タイプ周波数), 文脈変動の影響を受けていることを示す。
変圧器におけるこれらの学習の特徴は、有理と経験の両方の観点から現実的であると論じられている。
関連論文リスト
- When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文 参考訳(メタデータ) (2024-09-12T15:52:22Z) - Class Is Invariant to Context and Vice Versa: On Learning Invariance for Out-Of-Distribution Generalization [85.21263480129056]
我々は、先行研究において広く採用されている前提である文脈バイアスを直接注釈付けしたり、偏見付きクラス予測から推定することができると論じる。
対照的に、上述の原則の見過ごされた他の側面を指摘する:コンテキストもクラスに不変である。
我々は、クラス内サンプル類似性の対照的な損失を最小限に抑えながら、この類似性がすべてのクラスで不変であることを保証し、この考え方を実装した。
論文 参考訳(メタデータ) (2022-08-06T08:09:54Z) - Mixed-effects transformers for hierarchical adaptation [1.9105318290910576]
本稿では,階層的に構造化されたプレフィックスを学習するための新しいアプローチであるMulti-Efects Transformer(MET)を紹介する。
一般的な混合効果モデルのクラスがトランスフォーマーベースのアーキテクチャにどのように拡張されるかを示す。
論文 参考訳(メタデータ) (2022-05-03T19:34:15Z) - Perturbing Inputs for Fragile Interpretations in Deep Natural Language
Processing [18.91129968022831]
解釈可能性の手法は、医療や金融などの高い分野における信頼できるNLPアプリケーションにとって堅牢である必要がある。
本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。
論文 参考訳(メタデータ) (2021-08-11T02:07:21Z) - What Context Features Can Transformer Language Models Use? [32.49689188570872]
英語ウィキペディアで学習したトランスフォーマー言語モデルにおいて,語彙情報と構造情報を選択的に評価することにより,有用な情報を測定する。
中・長距離両方のコンテキストにおいて、いくつかの極めて破壊的なコンテキスト操作が使用可能な情報の15%未満を除去していることが判明した。
論文 参考訳(メタデータ) (2021-06-15T18:38:57Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。