論文の概要: Brevity is the soul of sustainability: Characterizing LLM response lengths
- arxiv url: http://arxiv.org/abs/2506.08686v1
- Date: Tue, 10 Jun 2025 10:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.356925
- Title: Brevity is the soul of sustainability: Characterizing LLM response lengths
- Title(参考訳): 呼吸は持続可能性の魂である:LDM応答長の特徴
- Authors: Soham Poddar, Paramita Koley, Janardan Misra, Sanjay Podder, Navveen Balani, Niloy Ganguly, Saptarshi Ghosh,
- Abstract要約: 大規模言語モデル(LLM)は、必要よりもかなり長い応答を生成する。
LLMは最小限の答え以外に冗長または追加の情報を含む傾向がある。
提案手法により,25~60%のエネルギー最適化を実現することができることを示す。
- 参考スコア(独自算出の注目度): 19.74097344007485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant portion of the energy consumed by Large Language Models (LLMs) arises from their inference processes; hence developing energy-efficient methods for inference is crucial. While several techniques exist for inference optimization, output compression remains relatively unexplored, with only a few preliminary efforts addressing this aspect. In this work, we first benchmark 12 decoder-only LLMs across 5 datasets, revealing that these models often produce responses that are substantially longer than necessary. We then conduct a comprehensive quality assessment of LLM responses, formally defining six information categories present in LLM responses. We show that LLMs often tend to include redundant or additional information besides the minimal answer. To address this issue of long responses by LLMs, we explore several simple and intuitive prompt-engineering strategies. Empirical evaluation shows that appropriate prompts targeting length reduction and controlling information content can achieve significant energy optimization between 25-60\% by reducing the response length while preserving the quality of LLM responses.
- Abstract(参考訳): 大規模言語モデル(LLM)が消費するエネルギーのかなりの部分は、その推論プロセスから発生し、推論のためのエネルギー効率の良い手法を開発することが重要である。
推論最適化にはいくつかの手法が存在するが、出力圧縮は比較的未検討であり、この側面に対処する予備的な試みはわずかである。
本研究では,5つのデータセットにまたがる12個のデコーダのみのLCMをベンチマークし,これらのモデルが要求よりもはるかに長いレスポンスを生成することを明らかにした。
次に、LLM応答の総合的な品質評価を行い、LLM応答に存在する6つの情報カテゴリを正式に定義する。
LLMには最小限の回答以外に冗長な情報や追加の情報が含まれることが多い。
LLMによる長応答の問題に対処するため、我々はいくつかの単純かつ直感的なプロンプトエンジニアリング戦略について検討する。
実験により,LLM応答の質を保ちながら,応答長を低減し,25~60倍のエネルギー最適化を達成できることが示唆された。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。