論文の概要: TRIM: Token Reduction and Inference Modeling for Cost-Effective Language Generation
- arxiv url: http://arxiv.org/abs/2412.07682v2
- Date: Mon, 16 Dec 2024 12:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:52.377290
- Title: TRIM: Token Reduction and Inference Modeling for Cost-Effective Language Generation
- Title(参考訳): TRIM:コスト効果言語生成のためのトークン削減と推論モデル
- Authors: Alfredo Garrachón Ruiz, Tomás de la Rosa, Daniel Borrajo,
- Abstract要約: 本稿では,より少ない推論コストのモデルを用いて,大規模言語モデルからの短い蒸留出力をフルナラティブに再構成する,計算コストの削減のためのパイプラインを提案する。
実験の結果、特に20.58%のトークンを平均で保存し、評価基準を小さくする一般知識領域において有望な結果が得られた。
- 参考スコア(独自算出の注目度): 1.2979906794584584
- License:
- Abstract: The inference cost of Large Language Models (LLMs) is a significant challenge due to their computational demands, specially on tasks requiring long outputs. However, natural language often contains redundancy, which presents an opportunity for optimization. We have observed that LLMs can generate distilled language-concise outputs that retain essential meaning, when prompted appropriately. We propose TRIM, a pipeline for saving computational cost in which a shorter distilled output from the LLM is reconstructed into a full narrative by a smaller model with lower inference costs. Our experiments show promising results, particularly in general knowledge domains with 20.58% saved tokens on average with tiny decrease in evaluation metrics, hinting that this approach can effectively balance efficiency and accuracy in language processing tasks.
- Abstract(参考訳): LLM(Large Language Models)の推論コストは、特に長い出力を必要とするタスクにおいて、その計算要求のために大きな課題である。
しかし、自然言語はしばしば冗長性を含み、最適化の機会を与える。
我々は, LLMが適切な刺激を受けると, 本質的な意味を保ちながら, 蒸留された言語簡潔な出力を生成できることを観察した。
本稿では,LLM からの短い蒸留出力を,より少ない推論コストでより小さなモデルでフルナラティブに再構成する,計算コストの削減のためのパイプラインである TRIM を提案する。
実験の結果、特に平均で20.58%のトークンを保存し、評価基準を小さく抑えた一般知識領域において有望な結果が得られ、この手法が言語処理タスクの効率性と精度を効果的にバランスさせることが示唆された。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages [1.149936119867417]
低リソース言語は、限られた言語資源とデータラベリングの専門知識のために、AI開発において重大な障壁に直面している。
データアノテーションのアクティブ学習ループにおけるLLMの可能性を活用することを提案する。
GPT-4-Turboを用いた実証的な評価では、データ要求が大幅に削減され、最先端の性能が実証された。
論文 参考訳(メタデータ) (2024-04-02T19:34:22Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking [16.057622631156164]
大規模言語モデル (LLM) は自然言語処理システムの状況に革命をもたらしたが、計算コストは高い。
従来,Small Language Models (SLMs) の可能性を,大規模言語に対する費用対効果の代替手段として活用するための様々なアプローチが検討されてきた。
本研究では,計算効率の向上とタスク性能の向上を目的とした新しいSLM/LLMルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:30:55Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。