論文の概要: Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment
- arxiv url: http://arxiv.org/abs/2501.17617v1
- Date: Wed, 29 Jan 2025 12:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:09.092994
- Title: Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment
- Title(参考訳): 確率的層配置を用いた大規模言語モデルの構造化文脈再構成
- Authors: Jonathan Teel, Jocasta Cumberbatch, Raphael Benington, Quentin Baskerville,
- Abstract要約: 本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Extended sequence generation often leads to degradation in contextual consistency due to the inability of conventional self-attention mechanisms to effectively retain long-range dependencies. Existing approaches, including memory compression and retrieval-augmented conditioning, introduce computational trade-offs that either increase inference latency or impose additional storage overhead. Structured Context Recomposition (SCR) introduces a probabilistic layer realignment strategy that dynamically adjusts learned representations within transformer layers, ensuring that semantically relevant embeddings persist throughout extended transformations. The proposed method enhances coherence retention through a recursive weighting function that redistributes representational emphasis based on inferred contextual relevance rather than relying on fixed token-level attention scores. Empirical results indicate that probabilistic realignment mitigates abrupt topic shifts and logical inconsistencies, particularly in scenarios where sequences exceed standard attention window constraints. Sequence-level entropy analysis further reveals that SCR moderates representational variability without introducing excessive output regularization, allowing models to sustain generative diversity while preserving contextual alignment. Attention head deviation measurements confirm that hierarchical reweighting contributes to smoother token dependency transitions across transformer layers, reinforcing the stability of multi-turn interactions and document-level reasoning. Computational resource assessments show that while SCR incurs a moderate increase in processing time, memory overhead remains within feasible limits, making it suitable for practical deployment in autoregressive generative applications.
- Abstract(参考訳): 拡張シーケンス生成は、しばしば、長距離依存を効果的に維持する従来の自己認識機構が欠如しているため、文脈整合性の低下につながる。
メモリ圧縮と検索拡張された条件付けを含む既存のアプローチでは、推論遅延を増加させるか、追加のストレージオーバーヘッドを課す計算トレードオフが導入されている。
構造化コンテキスト再構成(Structured Context Recomposition, SCR)は、トランスフォーマー層内の学習表現を動的に調整し、拡張トランスフォーメーションを通じて意味論的に関連する埋め込みが持続することを保証する確率層再配置戦略を導入する。
提案手法は, 固定されたトークンレベルの注意点に依存するのではなく, 推論された文脈的関連性に基づいて表現強調を再分割する再帰重み付け関数により, コヒーレンス保持を向上する。
実証的な結果から、確率的再配置は突然のトピックシフトと論理的不整合を緩和することが示された。
シーケンスレベルのエントロピー解析により、SCRは過剰な出力正規化を導入することなく表現の変動を緩和し、コンテキストアライメントを保ちながら生成的多様性を維持できることが明らかになった。
アテンションヘッド偏差測定により、階層的再重み付けがトランスフォーマー層間のトークン依存性遷移の円滑化に寄与し、マルチターン相互作用の安定性と文書レベルの推論が強化されることを確認した。
計算資源評価では、SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションに実用的な配置に適している。
関連論文リスト
- Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding [0.0]
高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
論文 参考訳(メタデータ) (2025-02-13T04:01:54Z) - Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models [0.0]
トークンの埋め込みを確率分布として表現することで、より柔軟な文脈推論が可能になる。
確率埋め込みは、近隣の一貫性を改善し、冗長性を減少させる。
確率埋め込みは、堅牢性に基づく評価シナリオの下でもコンテキスト整合性を維持する。
論文 参考訳(メタデータ) (2025-02-07T21:32:32Z) - Contextual Memory Reweaving in Large Language Models Using Layered Latent State Reconstruction [0.0]
シーケンスの長さが増加するにつれて、トークン依存は低下し、一貫性と事実整合性が低下する。
異なる処理層でキャプチャされた潜伏状態の再織り直しを通じてこの問題を軽減するための構造化されたアプローチが導入された。
提案されたContextual Memory Reweavingフレームワークには、Lambed Latent State Restructationメカニズムが組み込まれている。
論文 参考訳(メタデータ) (2025-02-04T06:25:20Z) - Contextually Structured Token Dependency Encoding for Large Language Models [0.0]
自己注意機構は動的文脈依存を捉えるが、学習した重み分布への依存は、生成配列における長距離階層構造の保存を制限する。
依存性を意識したトークンエンコーディングでは,トークン表現内にリレーショナル制約を埋め込むという,構造化されたアプローチが導入されている。
経験的評価は、多種多様な言語ベンチマークにおけるパープレキシティの低下を示し、自己回帰テキスト生成における文脈的一貫性と予測一貫性の改善を示唆している。
論文 参考訳(メタデータ) (2025-01-30T08:51:48Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。