論文の概要: Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
- arxiv url: http://arxiv.org/abs/2407.19825v1
- Date: Mon, 29 Jul 2024 09:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:25:55.207625
- Title: Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
- Title(参考訳): 簡潔思考:LLM推論とコストに対する出力長の影響
- Authors: Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli,
- Abstract要約: 本稿では,出力長が大規模言語モデル(LLM)推論パイプラインに与える影響を解析する。
テキストの正確さの観点から評価するための新しい指標を提案する。
また、改良されたプロンプトエンジニアリング戦略であるConstrained-CoTによる出力長制御の影響についても検討した。
- 参考スコア(独自算出の注目度): 4.299153274884264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Today's large language models (LLMs) can solve challenging question-answering tasks, and prompt engineering techniques, such as chain-of-thought (CoT), have gained attention for enhancing the explanation and correctness of outputs. Nevertheless, models require significant time to generate answers augmented with lengthy reasoning details. To address this issue, this paper analyzes the impact of output lengths on LLM inference pipelines and proposes novel metrics to evaluate them in terms of \textit{correct conciseness}. It also examines the impact of controlling output length through a refined prompt engineering strategy, Constrained-CoT (CCoT), which encourages the model to limit output length. Experiments on pre-trained LLMs demonstrated the benefit of the proposed metrics and the effectiveness of CCoT across different models. For instance, constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01\% (CoT) to 41.07\% (CCoT) on the GSM8K dataset, while reducing the average output length by 28 words.
- Abstract(参考訳): 今日の大規模言語モデル(LLM)は、挑戦的な問合せタスクを解くことができ、チェーン・オブ・シント(CoT)のような技術技術が、アウトプットの説明と正確性の向上に注目を集めている。
それでも、モデルは長い推論の詳細で強化された回答を生成するのにかなりの時間を必要とします。
本稿では, LLM推論パイプラインにおける出力長の影響を解析し, それらを評価するための新しい指標を提案する。
また、モデルが出力長を制限することを奨励する改良されたプロンプトエンジニアリング戦略であるConstrained-CoT (CCoT) を通じて出力長を制御することの影響についても検討した。
事前学習したLLMの実験では、提案したメトリクスの利点と、異なるモデル間でのCCoTの有効性が示された。
例えば、LLaMA2-70bを100ワードに制限すると、GSM8Kデータセット上の36.01\%(CoT)から41.07\%(CCoT)に精度が向上し、平均出力長は28ワード削減される。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。
より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。
本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-20T09:46:30Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models [48.35385912526338]
本稿では,入力長がLarge Language Models(LLMs)の能力に与える影響について検討する。
同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパディングで拡張した。
劣化傾向はデータセットのすべてのバージョンに現れるが、強度は異なる。
論文 参考訳(メタデータ) (2024-02-19T16:04:53Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。