論文の概要: Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
- arxiv url: http://arxiv.org/abs/2407.19825v1
- Date: Mon, 29 Jul 2024 09:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:25:55.207625
- Title: Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
- Title(参考訳): 簡潔思考:LLM推論とコストに対する出力長の影響
- Authors: Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli,
- Abstract要約: 本稿では,出力長が大規模言語モデル(LLM)推論パイプラインに与える影響を解析する。
テキストの正確さの観点から評価するための新しい指標を提案する。
また、改良されたプロンプトエンジニアリング戦略であるConstrained-CoTによる出力長制御の影響についても検討した。
- 参考スコア(独自算出の注目度): 4.299153274884264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's large language models (LLMs) can solve challenging question-answering tasks, and prompt engineering techniques, such as chain-of-thought (CoT), have gained attention for enhancing the explanation and correctness of outputs. Nevertheless, models require significant time to generate answers augmented with lengthy reasoning details. To address this issue, this paper analyzes the impact of output lengths on LLM inference pipelines and proposes novel metrics to evaluate them in terms of \textit{correct conciseness}. It also examines the impact of controlling output length through a refined prompt engineering strategy, Constrained-CoT (CCoT), which encourages the model to limit output length. Experiments on pre-trained LLMs demonstrated the benefit of the proposed metrics and the effectiveness of CCoT across different models. For instance, constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01\% (CoT) to 41.07\% (CCoT) on the GSM8K dataset, while reducing the average output length by 28 words.
- Abstract(参考訳): 今日の大規模言語モデル(LLM)は、挑戦的な問合せタスクを解くことができ、チェーン・オブ・シント(CoT)のような技術技術が、アウトプットの説明と正確性の向上に注目を集めている。
それでも、モデルは長い推論の詳細で強化された回答を生成するのにかなりの時間を必要とします。
本稿では, LLM推論パイプラインにおける出力長の影響を解析し, それらを評価するための新しい指標を提案する。
また、モデルが出力長を制限することを奨励する改良されたプロンプトエンジニアリング戦略であるConstrained-CoT (CCoT) を通じて出力長を制御することの影響についても検討した。
事前学習したLLMの実験では、提案したメトリクスの利点と、異なるモデル間でのCCoTの有効性が示された。
例えば、LLaMA2-70bを100ワードに制限すると、GSM8Kデータセット上の36.01\%(CoT)から41.07\%(CCoT)に精度が向上し、平均出力長は28ワード削減される。
関連論文リスト
- MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs [2.0921175288836746]
大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
論文 参考訳(メタデータ) (2024-11-05T19:52:58Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z) - CliqueParcel: An Approach For Batching LLM Prompts That Jointly
Optimizes Efficiency And Faithfulness [13.554160815699435]
CliqueParcelは、推論プロセス中に大きな言語モデル(LLM)の効率を改善するように設計されている。
CliqueParcelは、広く認識されている8つのデータセットでテストされている。
この研究は推論効率に関する新しい洞察を提供し、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-17T22:37:17Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - LenAtten: An Effective Length Controlling Unit For Text Summarization [5.554982420311913]
固定長要約は、予め設定された単語や文字の数で要約を生成することを目的としている。
近年の研究では、繰り返し復号器への入力として、単語の埋め込みを伴う長さ情報が組み込まれている。
我々は、このトレードオフを断ち切るために、有効長制御ユニットLenAtten(LenAtten)を提案する。
論文 参考訳(メタデータ) (2021-06-01T08:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。