論文の概要: Facts in Stats: Impacts of Pretraining Diversity on Language Model Generalization
- arxiv url: http://arxiv.org/abs/2510.16096v1
- Date: Fri, 17 Oct 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.850617
- Title: Facts in Stats: Impacts of Pretraining Diversity on Language Model Generalization
- Title(参考訳): 統計学におけるFacts: 多様性の事前訓練が言語モデル一般化に及ぼす影響
- Authors: Tina Behnia, Puneesh Deora, Christos Thrampoulidis,
- Abstract要約: 本稿では,ジェネリックトークンの統計ストリームと,ソースとターゲットのトークンペアの抽象的な事実ストリームを組み合わせたフレキシブルな合成テストベッドを提案する。
文脈的多様性の増大は分布内分布(ID)の精度を低下させるが、分布外分布(OOD)の一般化に対する影響は文脈的構造に大きく依存する。
- 参考スコア(独自算出の注目度): 33.5861323022684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are pretrained on sequences that blend statistical regularities (making text fluent) with factual associations between specific tokens (knowledge of facts). While recent work suggests that the variability of their interaction, such as paraphrases of factual associations, critically determines generalization ability, we lack a systematic analysis of these impacts. This paper introduces a flexible synthetic testbed that combines a statistical stream of generic tokens with an abstract factual stream of source-target token pairs, enabling fine-grained control over their interaction. The design enables the independent control of diversity nature by manipulating stream composition (contextual structure) and the diversity level by varying which statistical streams each fact appears in. Through controlled experiments, we find that while higher contextual diversity delays in-distribution (ID) factual accuracy, its impact on out-of-distribution (OOD) factual generalization depends critically on contextual structure. In some cases, OOD performance follows the same trend as ID, but in others, diversity becomes essential for non-trivial factual recall. Even when low diversity prohibits factual recall, optimal diversity levels depend on training duration. Beyond factual recall failures, we identify structures where statistical generalization fails independently, and others where both capabilities degrade. This shows how the interplay between contextual design and diversity level impacts different generalization aspects. Further, through a series of controlled interventions on the model components, we trace the OOD failures to distinct optimization bottlenecks, highlighting the importance of the embedding and unembedding layers. Our synthetic framework allows us to isolate effects that would be confounded in large-scale studies, offering a controlled testbed for future investigations.
- Abstract(参考訳): 言語モデルは、統計正則性と特定のトークン(事実の知識)の間の事実的関連をブレンドするシーケンスに基づいて事前訓練される。
最近の研究は、それらの相互作用の変動性、例えば事実関係のパラフレーズが一般化能力を決定することを示唆しているが、これらの影響の体系的な分析は欠如している。
本稿では,ジェネリックトークンの統計ストリームとソースとターゲットのトークンペアの抽象的な事実ストリームを組み合わせたフレキシブルな合成テストベッドを提案する。
この設計により、ストリーム合成(コンテキスト構造)を操作することにより、多様性自然を独立的に制御し、各事実がどの統計ストリームに現れるかを変えることで多様性レベルを制御できる。
制御実験により, 文脈的多様性の増大は分布内分布(ID)の精度を低下させるが, 分布外分布(OOD)の一般化に対する影響は文脈的構造に大きく依存することがわかった。
場合によっては、OODのパフォーマンスはIDと同じ傾向を辿るが、非自明な事実リコールには多様性が不可欠である。
多様性の低さが事実のリコールを禁止しているとしても、最適な多様性レベルはトレーニング期間に依存する。
事実的リコール障害以外にも、統計的一般化が独立に失敗する構造と、両方の能力が劣化する構造を識別する。
このことは、コンテキスト設計と多様性レベルの相互作用が、異なる一般化側面にどのように影響するかを示している。
さらに、モデルコンポーネントに対する一連の制御された介入を通じて、OODの障害を異なる最適化ボトルネックにトレースし、埋め込み層と非埋め込み層の重要性を強調します。
我々の合成フレームワークは、大規模な研究で確立されるであろう効果を分離し、将来の調査のために制御されたテストベッドを提供する。
関連論文リスト
- How Quantization Shapes Bias in Large Language Models [61.40435736418359]
重みとアクティベーションの定量化戦略に焦点をあて、幅広いバイアスタイプにまたがる効果について検討する。
確率的および生成されたテキストベースのメトリクスを9つのベンチマークで使用し、アーキテクチャファミリや推論能力の異なるモデルを評価する。
論文 参考訳(メタデータ) (2025-08-25T14:48:26Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Bridging the Generalisation Gap: Synthetic Data Generation for Multi-Site Clinical Model Validation [0.3362278589492841]
既存のモデル評価アプローチは、可用性に制限のある実世界のデータセットに頼っていることが多い。
本稿では, ベンチマークモデル, 公正性, 一般化性の制御されたロバスト性を考慮した, 構造化された合成データフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:04:28Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - A Causal Framework for Decomposing Spurious Variations [68.12191782657437]
我々はマルコフモデルとセミマルコフモデルの急激な変分を分解するツールを開発する。
突発効果の非パラメトリック分解を可能にする最初の結果を証明する。
説明可能なAIや公平なAIから、疫学や医学における疑問まで、いくつかの応用がある。
論文 参考訳(メタデータ) (2023-06-08T09:40:28Z) - Exploring Resiliency to Natural Image Corruptions in Deep Learning using
Design Diversity [0.6445605125467573]
本研究では,多様性指標,精度,レジリエンスとディープラーニング(DL)画像アンサンブルの自然画像汚損との関係について検討する。
我々のモチベーションは設計の多様性の分析研究に基づいており、設計選択の多様性が達成されれば、共通の失敗モードの削減が可能であることを示した。
論文 参考訳(メタデータ) (2023-03-15T08:54:10Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。