論文の概要: Hyperbolic Fine-tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.04010v1
- Date: Sat, 5 Oct 2024 02:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:40:27.493018
- Title: Hyperbolic Fine-tuning for Large Language Models
- Title(参考訳): 大規模言語モデルのための双曲的微調整
- Authors: Menglin Yang, Aosong Feng, Bo Xiong, Jihong Liu, Irwin King, Rex Ying,
- Abstract要約: 本研究では,大規模言語モデル(LLM)の非ユークリッド的特徴について検討する。
トークン埋め込みは高い双曲性を示し,埋め込み空間に木のような構造が潜んでいることを示す。
双曲的低ランク効率微調整法HypLoRAを導入し, 双曲的多様体上で直接低ランク適応を行う。
- 参考スコア(独自算出の注目度): 56.54715487997674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance on various tasks. However, it remains an open question whether the default Euclidean space is the most suitable choice for embedding tokens in LLMs. In this study, we first investigate the non-Euclidean characteristics of LLMs. Our findings reveal that token frequency follows a power-law distribution, with high-frequency tokens clustering near the origin and low-frequency tokens positioned farther away. Additionally, token embeddings exhibit a high degree of hyperbolicity, indicating a latent tree-like structure in the embedding space. Building on the observation, we propose to efficiently fine-tune LLMs in hyperbolic space to better exploit the underlying complex structures. However, we found that this fine-tuning in hyperbolic space cannot be achieved with naive application of exponential and logarithmic maps, when the embedding and weight matrices both reside in Euclidean space. To address this technique issue, we introduce a new method called hyperbolic low-rank efficient fine-tuning, HypLoRA, that performs low-rank adaptation directly on the hyperbolic manifold, avoiding the cancellation effect caused by the exponential and logarithmic maps, thus preserving the hyperbolic modeling capabilities. Through extensive experiments, we demonstrate that HypLoRA significantly enhances the performance of LLMs on reasoning tasks, particularly for complex reasoning problems. In particular, HypLoRA improves the performance in the complex AQuA dataset by up to 13.0%, showcasing its effectiveness in handling complex reasoning challenges
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクにおいて顕著な性能を示した。
しかし、デフォルトのユークリッド空間が LLM にトークンを埋め込むのに最も適した選択であるかどうかについては未解決のままである。
本研究では, LLMの非ユークリッド特性について検討した。
その結果, 起点付近に高周波のトークンが集結し, 遠方に位置する低周波のトークンが出現した。
さらに、トークン埋め込みは高い双曲性を示し、埋め込み空間に潜木のような構造を示す。
そこで本研究では, 双曲空間のLLMを効率よく微調整し, 基礎となる複雑な構造をよりよく活用することを提案する。
しかし、この双曲空間の微調整は、埋め込み行列と重み行列がともにユークリッド空間に存在するとき、指数写像と対数写像の単純適用では達成できないことがわかった。
この問題を解決するために,双曲的低ランク高効率微調整法HypLoRAを導入し,指数写像や対数写像によるキャンセル効果を回避し,双曲的モデリング能力を保ちながら,双曲的多様体に直接低ランク適応を行う。
実験により,HypLoRAは推論タスク,特に複雑な推論問題において,LLMの性能を著しく向上させることを示した。
特にHypLoRAは、複雑なAQuAデータセットのパフォーマンスを最大13.0%改善し、複雑な推論問題に対処する効果を示している。
関連論文リスト
- Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。
CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。
低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-10-14T05:54:11Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Fast hyperboloid decision tree algorithms [0.6656737591902598]
我々は、決定木アルゴリズムの新たな拡張であるHyperDTを双曲空間に提示する。
私たちのアプローチは概念的には単純で、一定時間の意思決定の複雑さを維持します。
HyperDTの上に構築されたハイパーRFは、双曲的ランダムフォレストモデルである。
論文 参考訳(メタデータ) (2023-10-20T22:31:10Z) - The Numerical Stability of Hyperbolic Representation Learning [36.32817250000654]
双曲空間に対する2つの一般的なモデル、すなわちポアンカーの球とローレンツ模型の極限を解析する。
我々は、このユークリッドパラメトリゼーションを双曲型超平面に拡張し、双曲型SVMの性能を向上させる能力を示す。
論文 参考訳(メタデータ) (2022-10-31T22:51:59Z) - HRCF: Enhancing Collaborative Filtering via Hyperbolic Geometric
Regularization [52.369435664689995]
HRCF (textitHyperbolic Regularization powered Collaborative Filtering) を導入し,幾何認識型双曲正規化器を設計する。
具体的には、ルートアライメントとオリジン認識ペナルティによる最適化手順を強化する。
提案手法は,双曲的凝集による過度な平滑化問題に対処でき,モデルの識別能力も向上する。
論文 参考訳(メタデータ) (2022-04-18T06:11:44Z) - Provably Accurate and Scalable Linear Classifiers in Hyperbolic Spaces [39.71927912296049]
スケーラブルで単純な双曲型線形分類器を学習するための統一的なフレームワークを提案する。
我々のアプローチの要点は、ポアンカーの球体モデルに焦点を合わせ、接空間形式を用いて分類問題を定式化することである。
Poincarの2階と戦略的パーセプトロンの優れた性能は、提案フレームワークが双曲空間における一般的な機械学習問題にまで拡張可能であることを示している。
論文 参考訳(メタデータ) (2022-03-07T21:36:21Z) - Highly Scalable and Provably Accurate Classification in Poincare Balls [40.82908295137667]
我々は、スケーラブルで単純な双曲型線形分類器を証明可能な性能保証で学習するための統一的なフレームワークを構築した。
提案手法は,新しい双曲型および二階型パーセプトロンアルゴリズムと,双曲型サポートベクトルマシン分類器の効率的かつ高精度な凸最適化設定を含む。
数百万の点からなる合成データセットと、シングルセルRNA-seq式測定、CIFAR10、Fashion-MNIST、mini-ImageNetのような複雑な実世界のデータセットの性能評価を行う。
論文 参考訳(メタデータ) (2021-09-08T16:59:39Z) - Augmented Sliced Wasserstein Distances [55.028065567756066]
拡張スライスされたワッサーシュタイン距離(ASWD)と呼ばれる新しい距離測定法を提案する。
ASWDは、ニューラルネットワークによってパラメータ化された高次元超曲面への最初のマッピングサンプルによって構成される。
数値的な結果から、ASWDは、合成問題と実世界の問題の両方において、他のワッサーシュタイン変種を著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2020-06-15T23:00:08Z) - Robust Large-Margin Learning in Hyperbolic Space [64.42251583239347]
ユークリッド空間ではなく双曲型で分類器を学ぶための最初の理論的保証を示す。
本研究では, 対向例の慎重な注入に頼って, 大面積超平面を効率よく学習するアルゴリズムを提案する。
双曲空間によく埋め込まれる階層的データに対して、低埋め込み次元は優れた保証を保証することを証明している。
論文 参考訳(メタデータ) (2020-04-11T19:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。