論文の概要: Incorporating Token Usage into Prompting Strategy Evaluation
- arxiv url: http://arxiv.org/abs/2505.14880v1
- Date: Tue, 20 May 2025 20:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.733992
- Title: Incorporating Token Usage into Prompting Strategy Evaluation
- Title(参考訳): プロンプティング戦略評価へのトークン利用の導入
- Authors: Chris Sypherd, Sergei Petrov, Sonny George, Vaishak Belle,
- Abstract要約: 効率性-バランシングパフォーマンスとトークン使用量-は、現実のユーティリティーにとってより実践的な指標になり得る、と我々は主張する。
Big-$O_tok$をいくつかの一般的なプロンプト戦略に適用し、トークンの使用量の増加がパフォーマンスのリターンを大幅に低下させることを示した。
- 参考スコア(独自算出の注目度): 4.4435854459610065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models have demonstrated remarkable performance across diverse tasks. However, their task effectiveness is heavily dependent on the prompting strategy used to elicit output, which can vary widely in both performance and token usage. While task performance is often used to determine prompting strategy success, we argue that efficiency--balancing performance and token usage--can be a more practical metric for real-world utility. To enable this, we propose Big-$O_{tok}$, a theoretical framework for describing the token usage growth of prompting strategies, and analyze Token Cost, an empirical measure of tokens per performance. We apply these to several common prompting strategies and find that increased token usage leads to drastically diminishing performance returns. Our results validate the Big-$O_{tok}$ analyses and reinforce the need for efficiency-aware evaluations.
- Abstract(参考訳): 近年,多種多様なタスクにおいて,大規模言語モデルの性能が顕著に向上している。
しかしながら、それらのタスクの有効性は、出力を引き出すのに使用されるプロンプト戦略に大きく依存しており、パフォーマンスとトークンの使用の両方で大きく異なる可能性がある。
タスクパフォーマンスは、しばしば戦略の成功を促すために使用されるが、効率性、バランス性能、トークン使用量などは、現実のユーティリティーにとってより実用的な指標である、と我々は主張する。
これを実現するため,我々は,トークン利用の促進戦略の成長を説明する理論的枠組みであるBig-$O_{tok}$を提案し,トークン使用率の実証尺度であるToken Costを分析した。
これらをいくつかの一般的なプロンプト戦略に適用し、トークンの使用量の増加がパフォーマンスのリターンを大幅に低下させることを示した。
この結果から,O_{tok$分析の妥当性を検証し,効率性を考慮した評価の必要性を裏付ける結果を得た。
関連論文リスト
- Efficient Inference for Large Reasoning Models: A Survey [42.61170621552432]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies [24.875748056926213]
本稿では,計算予算を評価に組み込む枠組みを提案する。
複雑な推論戦略は、アルゴリズムの創発性のため、純粋に単純なベースラインを超えないことが多い。
自己整合性とは異なり、マルチエージェントの議論やリフレクションのような特定の戦略は、より多くの計算予算が利用されれば悪化する可能性がある。
論文 参考訳(メタデータ) (2024-06-10T16:55:08Z) - Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
論文 参考訳(メタデータ) (2024-04-17T15:57:50Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。