論文の概要: Layer-Specific Scaling of Positional Encodings for Superior Long-Context Modeling
- arxiv url: http://arxiv.org/abs/2503.04355v1
- Date: Thu, 06 Mar 2025 11:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:18.597768
- Title: Layer-Specific Scaling of Positional Encodings for Superior Long-Context Modeling
- Title(参考訳): 超長期モデリングのための位置符号化の層別スケーリング
- Authors: Zhenghua Wang, Yiran Ding, Changze Lv, Zhibo Xu, Tianlong Li, Tianyuan Shi, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 大規模言語モデルは、文脈の中央にある重要な情報が不足したり、失われたりする、という「中間者」の問題に悩まされる。
本稿では,各層に異なるスケーリング要素を割り当てるレイヤ固有の位置符号化スケーリング手法を提案する。
提案手法により,Key-Value Retrievalデータセットの平均精度は最大20%向上した。
- 参考スコア(独自算出の注目度): 26.310612987107813
- License:
- Abstract: Although large language models (LLMs) have achieved significant progress in handling long-context inputs, they still suffer from the ``lost-in-the-middle'' problem, where crucial information in the middle of the context is often underrepresented or lost. Our extensive experiments reveal that this issue may arise from the rapid long-term decay in Rotary Position Embedding (RoPE). To address this problem, we propose a layer-specific positional encoding scaling method that assigns distinct scaling factors to each layer, slowing down the decay rate caused by RoPE to make the model pay more attention to the middle context. A specially designed genetic algorithm is employed to efficiently select the optimal scaling factors for each layer by incorporating Bezier curves to reduce the search space. Through comprehensive experimentation, we demonstrate that our method significantly alleviates the ``lost-in-the-middle'' problem. Our approach results in an average accuracy improvement of up to 20% on the Key-Value Retrieval dataset. Furthermore, we show that layer-specific interpolation, as opposed to uniform interpolation across all layers, enhances the model's extrapolation capabilities when combined with PI and Dynamic-NTK positional encoding schemes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文入力の処理において大きな進歩を遂げているが、文脈の中央で重要な情報が不足したり失われたりする場合の 'lost-in-the-middle'' 問題に苦しむ。
広範囲にわたる実験の結果,Rotary Position Embedding (RoPE) における長期の急激な崩壊から,この問題が生じる可能性が示唆された。
この問題に対処するために,各層に異なるスケーリング因子を割り当てるレイヤ固有の位置符号化スケーリング手法を提案する。
特別に設計された遺伝的アルゴリズムを用いて,ベジエ曲線を組み込んで探索空間を小さくすることで,各層の最適スケーリング係数を効率的に選択する。
包括的実験により,本手法は<lost-in-the-middle'問題を大幅に軽減することを示した。
提案手法により,Key-Value Retrievalデータセットの平均精度は最大20%向上した。
さらに,各層にまたがる均一な補間とは対照的に,PIや動的NTK位置符号化と組み合わせることで,モデル外挿能力を向上することを示す。
関連論文リスト
- HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。
高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。
本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-11-06T15:13:31Z) - Fast Point Cloud Geometry Compression with Context-based Residual Coding and INR-based Refinement [19.575833741231953]
我々は、KNN法を用いて、原表面点の近傍を決定する。
条件付き確率モデルは局所幾何学に適応し、大きな速度減少をもたらす。
暗黙のニューラル表現を精製層に組み込むことで、デコーダは任意の密度で下面の点をサンプリングすることができる。
論文 参考訳(メタデータ) (2024-08-06T05:24:06Z) - FedDRO: Federated Compositional Optimization for Distributionally Robust
Learning [11.70892315284039]
大規模かつ分散的なデータ利用には,効率的なフェデレート学習勾配アルゴリズムの開発が必要である。
FL設定における非線形合成勾配を解くための効率的なFedAvg型アルゴリズムを提案する。
我々の研究の重要な新規性は、大規模なバッチ評価を必要としない解の精度非依存のアルゴリズムを開発することである。
論文 参考訳(メタデータ) (2023-11-21T14:53:39Z) - HQDec: Self-Supervised Monocular Depth Estimation Based on a
High-Quality Decoder [14.67433946077953]
シーン深度を復元する高品質デコーダ(HQDec)を提案する。
コードとモデルはhrefhttps://github.com/fwucas/HQDecHQDec.comで公開される。
論文 参考訳(メタデータ) (2023-05-30T03:03:11Z) - Error-Aware Spatial Ensembles for Video Frame Interpolation [50.63021118973639]
近年,ビデオフレーム(VFI)アルゴリズムは,データ駆動アルゴリズムと実装の両面で前例のない進歩により,大幅に改善されている。
近年の研究では、挑戦的なVFIシナリオに対処する手段として、高度な動き推定や新しいワープ手法が導入されている。
本研究は、光フローとIEの相関関係を詳細に検討することにより、中間フレームを異なるIEレベルに対応する異なる領域に分割する新しいエラー予測指標を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:15:38Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Intermediate Layer Optimization for Inverse Problems using Deep
Generative Models [86.29330440222199]
ILOは、深層生成モデルを用いて逆問題を解決するための新しい最適化アルゴリズムである。
提案手法は,StyleGAN-2 や PULSE で導入した最先端手法よりも幅広い逆問題に対して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T06:52:22Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - Solving Sparse Linear Inverse Problems in Communication Systems: A Deep
Learning Approach With Adaptive Depth [51.40441097625201]
疎信号回復問題に対するエンドツーエンドの訓練可能なディープラーニングアーキテクチャを提案する。
提案手法は,出力するレイヤ数を学習し,各タスクのネットワーク深さを推論フェーズで動的に調整する。
論文 参考訳(メタデータ) (2020-10-29T06:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。