論文の概要: LLaMA based Punctuation Restoration With Forward Pass Only Decoding
- arxiv url: http://arxiv.org/abs/2408.11845v1
- Date: Fri, 9 Aug 2024 22:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.200467
- Title: LLaMA based Punctuation Restoration With Forward Pass Only Decoding
- Title(参考訳): フォワードパスのみの復号化によるLLaMAによる句読影復元
- Authors: Yutong Pang, Debjyoti Paul, Kevin Jiang, Xuedong Zhang, Xin Lei,
- Abstract要約: 本稿では,大規模言語モデル分野における2つの進歩を紹介する。
最初のコントリビューションは、確立されたベンチマークよりも優れた性能を示す、句読点復元のためのLLaMAの応用である。
2つ目のコントリビューションは、アノテーションタスクのための新しいデコードアプローチであるForward Pass Only Decodingである。
- 参考スコア(独自算出の注目度): 6.070244641436469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces two advancements in the field of Large Language Model Annotation with a focus on punctuation restoration tasks. Our first contribution is the application of LLaMA for punctuation restoration, which demonstrates superior performance compared to the established benchmark. Despite its impressive quality, LLaMA faces challenges regarding inference speed and hallucinations. To address this, our second contribution presents Forward Pass Only Decoding (FPOD), a novel decoding approach for annotation tasks. This innovative method results in a substantial 19.8x improvement in inference speed, effectively addressing a critical bottleneck and enhancing the practical utility of LLaMA for large-scale data annotation tasks without hallucinations. The combination of these contributions not only solidifies LLaMA as a powerful tool for punctuation restoration but also highlights FPOD as a crucial strategy for overcoming speed constraints.
- Abstract(参考訳): 本稿では,大言語モデルアノテーションの分野における2つの進歩を紹介し,句読点復元作業に焦点をあてる。
最初のコントリビューションは、LLaMAの句読点復元への応用であり、確立されたベンチマークよりも優れた性能を示している。
優れた品質にもかかわらず、LLaMAは推論速度と幻覚に関する課題に直面している。
2つ目のコントリビューションでは、アノテーションタスクのための新しいデコーディングアプローチであるフォワードパス専用デコーディング(FPOD)を紹介します。
この手法は、推論速度を大幅に19.8倍改善し、重要なボトルネックに効果的に対処し、幻覚のない大規模データアノテーションタスクにおけるLLaMAの実用性を向上する。
これらのコントリビューションの組み合わせは、LLaMAを句読点復元の強力なツールとしてだけでなく、FPODをスピード制約を克服するための重要な戦略として強調する。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Boosting Lossless Speculative Decoding via Feature Sampling and Partial Alignment Distillation [8.046705062670096]
損失のない投機的復号化は、ターゲットとする大言語モデル推論を加速する。
FSPAD (Feature Sampling and partial Alignment Distillation for Lossless Speculative Decoding) を提案する。
我々の実験は、ヴィクナ級数とLLaMA3-インストラクト級数で最大かつ最小のモデルにおいて、欲求と非欲求デコーディングの両方を含む。
論文 参考訳(メタデータ) (2024-08-28T06:28:01Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference [47.03691582405274]
大規模言語モデル(LLM)を外部コーパスから関連文書と統合した検索言語モデリング(RALM)は,情報生成の実証手法である。
検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで実行時の問題が発生する。
我々は、付加コンテキストパターンを用いて、ALMの推論効率を改善するために設計されたモジュラーALMであるFlashBackを提案する。
論文 参考訳(メタデータ) (2024-05-07T07:14:38Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。