論文の概要: Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model
- arxiv url: http://arxiv.org/abs/2408.10764v1
- Date: Tue, 20 Aug 2024 12:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:55:03.937205
- Title: Predicting Rewards Alongside Tokens: Non-disruptive Parameter Insertion for Efficient Inference Intervention in Large Language Model
- Title(参考訳): 大規模言語モデルにおける効率的な推論介入のための非破壊的パラメータ挿入
- Authors: Chenhan Yuan, Fei Huang, Ru Peng, Keming Lu, Bowen Yu, Chang Zhou, Jingren Zhou,
- Abstract要約: オッターは、複数の需要のあるタスクに対して最先端のパフォーマンスを提供し、86.5%の余剰スペースと98.5%の余剰時間を節約している。
Otterは既存の推論エンジンとシームレスに統合され、1行のコードの変更しか必要としない。
- 参考スコア(独自算出の注目度): 66.66687830336255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) exhibit limitations such as generating unsafe responses, unreliable reasoning, etc. Existing inference intervention approaches attempt to mitigate these issues by finetuning additional models to produce calibration signals (such as rewards) that guide the LLM's decoding process. However, this solution introduces substantial time and space overhead due to the separate models required. This work proposes Non-disruptive parameters insertion (Otter), inserting extra parameters into the transformer architecture to predict calibration signals along with the original LLM output. Otter offers state-of-the-art performance on multiple demanding tasks while saving up to 86.5\% extra space and 98.5\% extra time. Furthermore, Otter seamlessly integrates with existing inference engines, requiring only a one-line code change, and the original model response remains accessible after the parameter insertion. Our code is publicly available at \url{https://github.com/chenhan97/Otter}
- Abstract(参考訳): Transformerベースの大規模言語モデル(LLM)には、安全でない応答の生成や信頼性の低い推論などの制限がある。
既存の推論介入アプローチは、LCMの復号過程を導くキャリブレーション信号(報酬など)を生成するために追加のモデルを微調整することで、これらの問題を緩和しようとする。
しかし、このソリューションは、異なるモデルを必要とするため、かなりの時間と空間のオーバーヘッドをもたらす。
本研究は非破壊的パラメータ挿入(Otter)を提案し,元のLCM出力とともにキャリブレーション信号を予測するためにトランスフォーマアーキテクチャに余分なパラメータを挿入する。
オッターは、複数の要求されたタスクに対して最先端のパフォーマンスを提供し、86.5\%の余分なスペースと98.5\%の余分な時間を節約している。
さらに、Otterは既存の推論エンジンとシームレスに統合され、1行のコードの変更しか必要とせず、元のモデル応答はパラメータ挿入後もアクセス可能である。
我々のコードは \url{https://github.com/chenhan97/Otter} で公開されている。
関連論文リスト
- Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。
最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。
提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2025-02-17T04:37:22Z) - SSMLoRA: Enhancing Low-Rank Adaptation with State Space Model [11.90104174705911]
低ランク行列を相互接続するための低ランク適応(LoRA)の拡張であるSSMLoRA(State Space Model Low-Rank Adaptation)を提案する。
本手法は一般言語評価(GLUE)ベンチマークでLoRAに匹敵する性能を達成し,パラメータの半分しか使用していない。
論文 参考訳(メタデータ) (2025-02-07T14:22:35Z) - TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Do We Really Need That Many Parameters In Transformer For Extractive
Summarization? Discourse Can Help ! [7.421040034454999]
談話先行情報を用いた新しいパラメータリーン自己認識機構を提案する。
我々の新しい木自己注意は文書レベルの談話情報に基づいている。
本研究は,本手法が抽出的要約の課題において,競合的なROUGEスコアを達成できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-03T18:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。