論文の概要: HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts
- arxiv url: http://arxiv.org/abs/2505.24722v1
- Date: Fri, 30 May 2025 15:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.046888
- Title: HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts
- Title(参考訳): HELM:Mixture-of-Curvature Expertsによる双曲型大規模言語モデル
- Authors: Neil He, Rishabh Anand, Hiren Madhu, Ali Maatouk, Smita Krishnaswamy, Leandros Tassiulas, Menglin Yang, Rex Ying,
- Abstract要約: 我々はHypErbolic Large Language ModelsのファミリーであるHELMを紹介する。
HELM-MICEでは,双曲型マルチヘッド潜在注意法を開発した。
両方のモデルに対して、回転位置符号化と RMS 正規化の本質的な双曲的等価性を開発する。
- 参考スコア(独自算出の注目度): 23.011684464345294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great success in text modeling tasks across domains. However, natural language exhibits inherent semantic hierarchies and nuanced geometric structure, which current LLMs do not capture completely owing to their reliance on Euclidean operations. Recent studies have also shown that not respecting the geometry of token embeddings leads to training instabilities and degradation of generative capabilities. These findings suggest that shifting to non-Euclidean geometries can better align language models with the underlying geometry of text. We thus propose to operate fully in Hyperbolic space, known for its expansive, scale-free, and low-distortion properties. We thus introduce HELM, a family of HypErbolic Large Language Models, offering a geometric rethinking of the Transformer-based LLM that addresses the representational inflexibility, missing set of necessary operations, and poor scalability of existing hyperbolic LMs. We additionally introduce a Mixture-of-Curvature Experts model, HELM-MICE, where each expert operates in a distinct curvature space to encode more fine-grained geometric structure from text, as well as a dense model, HELM-D. For HELM-MICE, we further develop hyperbolic Multi-Head Latent Attention (HMLA) for efficient, reduced-KV-cache training and inference. For both models, we develop essential hyperbolic equivalents of rotary positional encodings and RMS normalization. We are the first to train fully hyperbolic LLMs at billion-parameter scale, and evaluate them on well-known benchmarks such as MMLU and ARC, spanning STEM problem-solving, general knowledge, and commonsense reasoning. Our results show consistent gains from our HELM architectures -- up to 4% -- over popular Euclidean architectures used in LLaMA and DeepSeek, highlighting the efficacy and enhanced reasoning afforded by hyperbolic geometry in large-scale LM pretraining.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン間でのテキストモデリングタスクにおいて大きな成功を収めている。
しかし、自然言語は固有の意味的階層とニュアンス付き幾何学構造を示しており、現在のLLMはユークリッド演算に依存しているため、完全には捉えられない。
近年の研究では、トークン埋め込みの幾何学を尊重しないことは、訓練の不安定性と生成能力の劣化につながることが示されている。
これらの結果は、非ユークリッド幾何学への移行により、言語モデルと基礎となるテクストの幾何学との整合性が向上することを示唆している。
そこで我々は,その拡張性,スケールフリー性,低歪み性で知られている,双曲空間における完全操作を提案する。
そこで我々は,HypErbolic Large Language ModelsのファミリーであるHELMを導入し,表現の柔軟性,必要な操作セットの欠如,既存のハイパーボリックLMのスケーラビリティの低さに対処する Transformer ベースの LLM を幾何学的に再考する。
さらに,テキストからよりきめ細かい幾何学的構造を符号化するために,各専門家が別々の曲率空間で操作するMixture-of-Curvature Expertsモデル,HELM-Dを導入する。
HELM-MICEでは,HMLA(Hyperbolic Multi-Head Latent Attention)をさらに発展させ,KV-cache トレーニングと推論の効率化を図る。
両方のモデルに対して、回転位置符号化と RMS 正規化の本質的な双曲的等価性を開発する。
我々は,10億パラメータスケールで完全に双曲型LLMをトレーニングし,STEM問題解決,一般知識,常識推論にまたがるMMLUやARCなどのよく知られたベンチマークで評価した。
LLaMAやDeepSeekで使用されている一般的なユークリッドアーキテクチャに対して,私たちのHELMアーキテクチャは,大規模なLM事前トレーニングにおいて双曲幾何学によって得られる有効性と拡張された推論よりも,一貫性のある向上を示している。
関連論文リスト
- Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models [34.647839550142834]
本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。
GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-30T16:01:43Z) - Aligning Large Language Models and Geometric Deep Models for Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。
プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。
本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。
本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文 参考訳(メタデータ) (2024-11-08T04:15:08Z) - Hyperbolic Fine-tuning for Large Language Models [56.54715487997674]
本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
論文 参考訳(メタデータ) (2024-10-05T02:58:25Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Hyperbolic Learning with Multimodal Large Language Models [8.98815579836401]
BLIP-2アーキテクチャを用いたパラメータ(ビリオン)とトレーニングの複雑さの観点から,マルチモーダル双曲モデルを桁違いにスケールする上での課題に対処する。
本稿では, BLIP-2のハイパーボリックバージョンに対する新たなトレーニング戦略を提案する。これはユークリッドと同等の性能を達成できると同時に, トレーニングプロセス全体の安定性を維持しつつ, 埋め込み毎に不確実性を有意義に示すものである。
論文 参考訳(メタデータ) (2024-08-09T14:39:15Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。