論文の概要: Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding
- arxiv url: http://arxiv.org/abs/2502.08947v1
- Date: Thu, 13 Feb 2025 04:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:56.605754
- Title: Structured Convergence in Large Language Model Representations via Hierarchical Latent Space Folding
- Title(参考訳): 階層的潜在空間フォルダリングによる大規模言語モデル表現における構造的収束
- Authors: Fenella Harcourt, Naderdel Piero, Gilbert Sutherland, Daphne Holloway, Harriet Bracknell, Julian Ormsby,
- Abstract要約: 高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
本稿では,学習した埋め込みにおいて,マルチスケールの組織を強制する構造的変換機構を提案する。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Token representations in high-dimensional latent spaces often exhibit redundancy, limiting computational efficiency and reducing structural coherence across model layers. Hierarchical latent space folding introduces a structured transformation mechanism that enforces a multi-scale organization within learned embeddings, refining representational compactness while preserving essential contextual distinctions. The proposed approach incorporates dynamic folding operations that iteratively adjust token embeddings through structured transformations, influencing both short-range and long-range dependencies in sequential processing tasks. Empirical evaluation demonstrates a reduction in representational variance across layers, contributing to more stable perplexity distributions and enhancing predictive confidence in text generation. The structured redistribution of attention head utilization leads to more efficient allocation of computational resources, particularly in deeper layers, where hierarchical refinements improve contextual abstraction. Comparative analysis of activation sparsity patterns suggests that hierarchical adjustments selectively reinforce critical pathways while reducing computational overhead in non-essential regions of the model. Statistical assessments of token reordering frequencies reveal that hierarchical modifications introduce subtle shifts in sequential dependencies, improving contextual alignment while maintaining syntactic correctness. Computational trade-offs associated with hierarchical folding introduce marginal increases in training time per epoch, yet empirical findings indicate that inference efficiency benefits from the structured representation adjustments. The results highlight the impact of hierarchical latent space folding on optimizing model performance through improved representation structuring and computational efficiency.
- Abstract(参考訳): 高次元潜在空間におけるトークン表現は、しばしば冗長性を示し、計算効率を制限し、モデル層全体の構造的コヒーレンスを低減する。
階層的な潜在空間の折り畳みは、学習された埋め込みの中で多スケールの組織を強制する構造的変換機構を導入し、重要な文脈的区別を保ちながら表現的コンパクト性を洗練する。
提案手法は, トークンの埋め込みを構造化変換により反復的に調整する動的折り畳み演算を取り入れ, シーケンシャル処理タスクにおける短距離および長距離の依存関係に影響を与える。
経験的評価は、層間の表現分散の減少を示し、より安定したパープレキシティ分布に寄与し、テキスト生成における予測信頼性を高める。
構造化されたアテンションヘッド利用の再分配は、特に階層的な洗練によって文脈的抽象化が向上する深い層において、より効率的な計算資源配分をもたらす。
活性化空間パターンの比較分析により,階層的調整は重要な経路を選択的に強化し,非定常領域の計算オーバーヘッドを低減させることが示された。
トークンの並べ替え頻度の統計的評価は、階層的な変更が連続的な依存関係の微妙な変化をもたらし、構文的正しさを維持しながら文脈的アライメントを改善していることを示している。
階層的折り畳みに伴う計算的トレードオフは、エポック毎のトレーニング時間に限界的増加をもたらすが、実証的な結果は、構造的表現調整による推論効率の恩恵が示唆される。
その結果,階層型潜在空間の折り畳みが表現構造の改善と計算効率の向上を通じてモデル性能の最適化に与える影響が明らかになった。
関連論文リスト
- Matcha: Mitigating Graph Structure Shifts with Test-Time Adaptation [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。
グラフの構造シフトへの効果的かつ効率的な適応を目的とした,革新的なフレームワークであるMatchaを提案する。
合成と実世界の両方のデータセットに対するMatchaの有効性を検証し、構造と属性シフトの様々な組み合わせにおける頑健さを実証した。
論文 参考訳(メタデータ) (2024-10-09T15:15:40Z) - Generative Sentiment Analysis via Latent Category Distribution and Constrained Decoding [30.05158520307257]
本研究では,生成的感情分析モデルを提案する。
変分オートエンコーダの入力を再構成することにより、モデルがカテゴリとテキストの関係の強さを学習する。
Restaurant-ACOSとLaptop-ACOSデータセットの実験結果は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-07-31T12:29:17Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - SLOTH: Structured Learning and Task-based Optimization for Time Series
Forecasting on Hierarchies [16.12477042879166]
階層時系列(HTS)予測には2つのサブタスク、すなわち予測と和解が含まれる。
本稿では,トップダウン・コンボリューションとボトムアップ・アテンション(ボトムアップ・アテンション)という,新しいツリーベース機能統合機構を提案する。
強い仮定を頼りにするか、一貫性のある制約のみにフォーカスする従来の和解法とは異なり、我々はディープ・ニューラル・オプティマイゼーション・ネットワークを利用する。
論文 参考訳(メタデータ) (2023-02-11T10:50:33Z) - Structural hierarchical learning for energy networks [1.2599533416395767]
本研究では,階層構造のトポロジ的構造にインスパイアされた,カスタムニューラルネットワークの設計について検討する。
その結果、データ制限のある環境では、コネクションが少ない構造モデルが全体として最高のパフォーマンスを発揮することが判明した。
全体として、この研究は構造的スケールの学習メカニズムの拡張により階層的な学習方法を拡張し、改善する。
論文 参考訳(メタデータ) (2023-02-08T10:28:32Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Hierarchical regularization networks for sparsification based learning
on noisy datasets [0.0]
階層は、連続的により微細なスケールで特定される近似空間から従う。
各スケールでのモデル一般化を促進するため,複数次元にわたる新規な射影型ペナルティ演算子も導入する。
その結果、合成データセットと実データセットの両方において、データ削減およびモデリング戦略としてのアプローチの性能が示された。
論文 参考訳(メタデータ) (2020-06-09T18:32:24Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。