Fugu-MT 論文翻訳(概要): Entropy-Guided Attention for Private LLMs

論文の概要: Entropy-Guided Attention for Private LLMs

arxiv url: http://arxiv.org/abs/2501.03489v2
Date: Wed, 08 Jan 2025 22:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 13:34:05.446326
Title: Entropy-Guided Attention for Private LLMs
Title（参考訳）: プライベートLLMにおけるエントロピー誘導注意
Authors: Nandan Kumar Jha, Brandon Reagen,
Abstract要約: 本稿では,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを提案する。シャノンのエントロピーを定量的な尺度として活用することにより、これまで探索されなかった非線形性の二重性を明らかにする。本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。
参考スコア（独自算出の注目度）: 3.7802450241986945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pervasiveness of proprietary language models has raised critical privacy concerns, necessitating advancements in private inference (PI), where computations are performed directly on encrypted data without revealing users' sensitive information. While PI offers a promising solution, its practical deployment is hindered by substantial communication and latency overheads, primarily stemming from nonlinear operations. To address this, we introduce an information-theoretic framework to characterize the role of nonlinearities in decoder-only language models, laying a principled foundation for optimizing transformer-architectures tailored to the demands of PI. By leveraging Shannon's entropy as a quantitative measure, we uncover the previously unexplored dual significance of nonlinearities: beyond ensuring training stability, they are crucial for maintaining attention head diversity. Specifically, we find that their removal triggers two critical failure modes: {\em entropy collapse} in deeper layers that destabilizes training, and {\em entropic overload} in earlier layers that leads to under-utilization of Multi-Head Attention's (MHA) representational capacity. We propose an entropy-guided attention mechanism paired with a novel entropy regularization technique to mitigate entropic overload. Additionally, we explore PI-friendly alternatives to layer normalization for preventing entropy collapse and stabilizing the training of LLMs with reduced-nonlinearities. Our study bridges the gap between information theory and architectural design, establishing entropy dynamics as a principled guide for developing efficient PI architectures. The code and implementation are available at https://github.com/Nandan91/entropy-guided-attention-llm
Abstract（参考訳）: プロプライエタリな言語モデルの普及は、ユーザの機密情報を明らかにすることなく、直接暗号化されたデータ上で計算を行うプライベート推論(PI)の進歩を必要とする、重要なプライバシー上の懸念を提起している。 PIは有望なソリューションを提供するが、その実践的なデプロイメントは、主に非線形操作に起因する、相当な通信と遅延オーバーヘッドによって妨げられている。これを解決するために,デコーダのみの言語モデルにおける非線形性の役割を特徴付ける情報理論フレームワークを導入する。シャノンのエントロピーを定量的な尺度として活用することにより、これまで解明されていなかった非線形性の二重性の重要性を明らかにする。具体的には, トレーニングを不安定化する深層層において, {\em entropy collapse} と,MHA(Multi-Head Attention's (MHA))表現能力の過小評価につながる以前の層において, その除去が重要な障害モードを2つ引き起こすことがわかった。本稿では,新しいエントロピー正規化手法と組み合わせたエントロピー誘導型アテンション機構を提案し,エントロピー過負荷を軽減する。さらに、エントロピー崩壊の防止とLLMの非線型化によるトレーニングの安定化を目的とした、PI親和性のある層正規化の代替策について検討する。本研究は,情報理論とアーキテクチャ設計のギャップを埋め,効率的なPIアーキテクチャを開発するための原則的ガイドとしてエントロピー力学を確立した。コードと実装はhttps://github.com/Nandan91/entropy-guided-attention-llmで公開されている。

関連論文リスト

Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文参考訳（メタデータ） (2025-06-05T17:55:23Z)
UP-dROM : Uncertainty-Aware and Parametrised dynamic Reduced-Order Model, application to unsteady flows [27.50487430169627]
還元次数モデル(ROM)は、低コストな予測を提供することによって流体力学において重要な役割を果たす。 ROMが広く適用されるためには、異なる体制にまたがってうまく一般化するだけでなく、その予測に対する信頼度も測らなければならない。過渡流に特化して設計された非線形還元戦略を提案する。
論文参考訳（メタデータ） (2025-03-29T22:17:36Z)
Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8035317670223]
科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-03-24T19:12:39Z)
Encrypted Large Model Inference: The Equivariant Encryption Paradigm [18.547945807599543]
Equivariant Encryption(EE)は,暗号化されたデータに対して,性能上のオーバーヘッドがゼロに近いセキュアな"盲目"推論を可能にするように設計された,新しいパラダイムである。計算グラフ全体を暗号化する完全同型アプローチとは異なり、EEはニューラルネットワーク層内の重要な内部表現を選択的に難読化する。 EEは高い忠実性とスループットを維持しており、ロバストなデータの機密性と、現代的な大規模モデル推論の厳密な効率要件の間のギャップを効果的に埋めています。
論文参考訳（メタデータ） (2025-02-03T03:05:20Z)
Physics-Informed Latent Neural Operator for Real-time Predictions of Complex Physical Systems [0.0]
ディープオペレータネットワーク(DeepONet)は、偏微分方程式(PDE)によって支配される系の代理モデルとして大きな可能性を示している。この研究は、制限を克服する物理インフォームされた潜在演算子学習フレームワークPI-Latent-NOを導入している。
論文参考訳（メタデータ） (2025-01-14T20:38:30Z)
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models [3.7802450241986945]
LayerNormは、トレーニングの安定化とスムーズな最適化を保証するため、現代の大規模言語モデル(LLM)において重要なコンポーネントである。本研究は、正規化自由デコーダのみのLLMにおける望ましいアクティベーション関数について検討する。 ReLUは、LayerNormフリーモデルでGELUを著しく上回り、bf 8.2%のパープレキシティ改善をもたらした。
論文参考訳（メタデータ） (2024-10-12T20:26:01Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Assessing Neural Network Representations During Training Using Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文参考訳（メタデータ） (2023-12-04T01:32:42Z)
Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文参考訳（メタデータ） (2023-08-10T09:52:44Z)
Residual-based attention and connection to information bottleneck theory in PINNs [0.393259574660092]
近年,物理インフォームドニューラルネットワーク(PINN)への関心が高まっている。本稿では,動的システムや静的システムの収束を加速する,PINNの効率的な勾配なし重み付け手法を提案する。
論文参考訳（メタデータ） (2023-07-01T16:29:55Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
A purely data-driven framework for prediction, optimization, and control of networked processes: application to networked SIS epidemic model [0.8287206589886881]
我々は,大規模ネットワーク上での非線形力学の同定と制御を行う演算子理論に基づくデータ駆動型フレームワークを開発した。提案手法では、ネットワーク構造に関する事前の知識は必要とせず、状態の2段階のスナップショットのみを用いて基礎となるダイナミクスを識別する。
論文参考訳（メタデータ） (2021-08-01T03:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。