論文の概要: Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size
- arxiv url: http://arxiv.org/abs/2604.13275v1
- Date: Tue, 14 Apr 2026 20:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.28401
- Title: Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size
- Title(参考訳): スケールによる改善と悪化 - モデルサイズによるコンテキスト適応の多様性
- Authors: Dikshant Kukreja, Kshitij Sah, Gautam Gupta, Avinash Anand, Rajiv Ratn Shah, Zhengkui Wang, Aik Beng Ng, Erik Cambria,
- Abstract要約: 我々は、この明らかなパラドックスを、文脈的エントレインメントのための最初のスケーリング法則によって定式化する。
エントレメントは予測可能なパワーロースケーリングに従っているが、コンテキストタイプによっては逆の傾向がある。
具体的には、最大のモデルは、最小の4倍の偽情報に対する耐性がある。
- 参考スコア(独自算出の注目度): 44.634649562117744
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Larger language models become simultaneously better and worse at handling contextual information -- better at ignoring false claims, worse at ignoring irrelevant tokens. We formalize this apparent paradox through the first scaling laws for contextual entrainment, the tendency of models to favor tokens that appeared in context regardless of relevance. Analyzing the Cerebras-GPT (111M-13B) and Pythia (410M-12B) model families, we find entrainment follows predictable power-law scaling, but with opposite trends depending on context type: semantic contexts show decreasing entrainment with scale, while non-semantic contexts show increasing entrainment. Concretely, the largest models are four times more resistant to counterfactual misinformation than the smallest, yet simultaneously twice as prone to copying arbitrary tokens. These diverging trends, which replicate across model families, suggest that semantic filtering and mechanical copying are functionally distinct behaviors that scale in opposition -- scaling alone does not resolve context sensitivity, it reshapes it.
- Abstract(参考訳): より大きな言語モデルは、コンテキスト情報を扱うこと -- 偽のクレームを無視すること、無関係なトークンを無視すること -- において、同時に改善され、さらに悪化します。
我々は、この明らかなパラドックスを、文脈的エントレインメントのための最初のスケーリング法則、関係によらず文脈に現れるトークンを好む傾向を通じて定式化する。
Cerebras-GPT (111M-13B) と Pythia (410M-12B) モデルファミリを解析したところ、エントレーニングは予測可能なパワー・ロー・スケーリングに従っているが、コンテキストによっては逆の傾向を示す。
具体的には、最大のモデルは、偽情報の偽造に4倍の抵抗性を持つが、任意のトークンをコピーする傾向にある。
モデルファミリ間で複製されるこれらの多様化傾向は、セマンティックフィルタリングとメカニカルコピーが、反対にスケールする機能的に異なる振る舞いであることを示唆している。
関連論文リスト
- Scale Dependent Data Duplication [29.59812821602787]
セマンティック複製は、トレーニング中に正確に複製されるように、ますます機能します。
EmbeddingGemma-300mを使って、1億9200万のFineWeb-Edu-Dedupドキュメントを埋め込んだ。
我々は,事前学習コーパスの意味的特異性に制限があるため,実践者が期待するスケーリングから逸脱を推定できる明示的なスケーリング法を導出する。
論文 参考訳(メタデータ) (2026-02-18T05:22:58Z) - When Less is More: The LLM Scaling Paradox in Context Compression [14.27795208607174]
圧縮機サイズの増大は、再構成されたコンテキストの忠実度を低下させる。
原因はパラメータ数ではなく,過剰な意味能力と,スケーリングに伴う生成の不確実性の増幅である。
論文 参考訳(メタデータ) (2026-02-10T13:49:08Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。