論文の概要: Entropy-Guided Attention for Private LLMs
- arxiv url: http://arxiv.org/abs/2501.03489v2
- Date: Wed, 08 Jan 2025 22:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 10:39:59.625025
- Title: Entropy-Guided Attention for Private LLMs
- Title(参考訳): プライベートLLMにおけるエントロピー誘導注意
- Authors: Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: 本稿では,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを提案する。
シャノンのエントロピーを定量的な尺度として活用することにより、これまで探索されなかった非線形性の二重性を明らかにする。
本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
- 参考スコア(独自算出の注目度): 3.7802450241986945
- License:
- Abstract: The pervasiveness of proprietary language models has raised critical privacy concerns, necessitating advancements in private inference (PI), where computations are performed directly on encrypted data without revealing users' sensitive information. While PI offers a promising solution, its practical deployment is hindered by substantial communication and latency overheads, primarily stemming from nonlinear operations. To address this, we introduce an information-theoretic framework to characterize the role of nonlinearities in decoder-only language models, laying a principled foundation for optimizing transformer-architectures tailored to the demands of PI. By leveraging Shannon's entropy as a quantitative measure, we uncover the previously unexplored dual significance of nonlinearities: beyond ensuring training stability, they are crucial for maintaining attention head diversity. Specifically, we find that their removal triggers two critical failure modes: {\em entropy collapse} in deeper layers that destabilizes training, and {\em entropic overload} in earlier layers that leads to under-utilization of Multi-Head Attention's (MHA) representational capacity. We propose an entropy-guided attention mechanism paired with a novel entropy regularization technique to mitigate entropic overload. Additionally, we explore PI-friendly alternatives to layer normalization for preventing entropy collapse and stabilizing the training of LLMs with reduced-nonlinearities. Our study bridges the gap between information theory and architectural design, establishing entropy dynamics as a principled guide for developing efficient PI architectures. The code and implementation are available at https://github.com/Nandan91/entropy-guided-attention-llm
- Abstract(参考訳): プロプライエタリな言語モデルの普及は、ユーザの機密情報を明らかにすることなく、直接暗号化されたデータ上で計算を行うプライベート推論(PI)の進歩を必要とする、重要なプライバシー上の懸念を提起している。
PIは有望なソリューションを提供するが、その実践的なデプロイメントは、主に非線形操作に起因する、相当な通信と遅延オーバーヘッドによって妨げられている。
これを解決するために,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを導入する。
シャノンのエントロピーを定量的な尺度として活用することにより、これまで解明されていなかった非線形性の二重性の重要性を明らかにする。
具体的には, トレーニングを不安定化する深層層において, {\em entropy collapse} と,MHA(Multi-Head Attention's (MHA))表現能力の過小評価につながる以前の層において, その除去が重要な障害モードを2つ引き起こすことがわかった。
本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
さらに、エントロピー崩壊の防止とLLMの非線型化によるトレーニングの安定化を目的とした、PI親和性のある層正規化の代替策について検討する。
本研究は,情報理論とアーキテクチャ設計のギャップを埋め,効率的なPIアーキテクチャを開発するための原則的ガイドとしてエントロピー力学を確立した。
コードと実装はhttps://github.com/Nandan91/entropy-guided-attention-llmで公開されている。
関連論文リスト
- Optimal Transport-Based Displacement Interpolation with Data Augmentation for Reduced Order Modeling of Nonlinear Dynamical Systems [0.0]
本稿では,複雑なシステムにおける非線形力学の表現を強化するために,最適輸送理論と変位を利用した新しいリダクション・オーダー・モデル(ROM)を提案する。
複雑なシステム挙動の予測における精度と効率の向上を示し、計算物理学や工学における幅広い応用の可能性を示している。
論文 参考訳(メタデータ) (2024-11-13T16:29:33Z) - ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。
本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。
ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文 参考訳(メタデータ) (2024-10-12T20:26:01Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Residual-based attention and connection to information bottleneck theory
in PINNs [0.393259574660092]
近年,物理インフォームドニューラルネットワーク(PINN)への関心が高まっている。
本稿では,動的システムや静的システムの収束を加速する,PINNの効率的な勾配なし重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T16:29:55Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - A purely data-driven framework for prediction, optimization, and control
of networked processes: application to networked SIS epidemic model [0.8287206589886881]
我々は,大規模ネットワーク上での非線形力学の同定と制御を行う演算子理論に基づくデータ駆動型フレームワークを開発した。
提案手法では、ネットワーク構造に関する事前の知識は必要とせず、状態の2段階のスナップショットのみを用いて基礎となるダイナミクスを識別する。
論文 参考訳(メタデータ) (2021-08-01T03:57:10Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。