論文の概要: KiC: Keyword-inspired Cascade for Cost-Efficient Text Generation with LLMs
- arxiv url: http://arxiv.org/abs/2507.13666v1
- Date: Fri, 18 Jul 2025 05:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.193564
- Title: KiC: Keyword-inspired Cascade for Cost-Efficient Text Generation with LLMs
- Title(参考訳): KiC: LLMによるコスト効率の良いテキスト生成のためのキーワードインスパイアされたカスケード
- Authors: Woo-Chan Kim, Ji-Hoon Park, Seong-Whan Lee,
- Abstract要約: Keywords-inspired Cascade (KiC) はコスト効率の良いフリーフォームテキスト生成のための新しいフレームワークである。
KiCはGPT-4の精度の97.3%を達成し、APIコストを平均28.81パーセント削減している。
- 参考スコア(独自算出の注目度): 29.16675178729016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated state-of-the-art performance across a wide range of natural language processing tasks. However, high-performing models are typically accessible only via APIs, incurring substantial inference costs. Cascade methods address this by initially employing a cheaper model and escalating to a stronger one only when necessary. Nevertheless, existing cascade approaches struggle to select a reliable representative response and assess the overall reliability of free-form outputs, as they rely on exact text matching. To overcome these limitations, we propose Keyword-inspired Cascade (KiC), a novel framework for cost-efficient free-form text generation. KiC identifies the most representative answer among multiple outputs from a weaker model and evaluates the semantic alignment of other responses with it. Based on the degree of alignment, KiC determines whether to accept the weaker model's output or escalate to a stronger model. Experiments on three free-form text generation benchmarks show that KiC achieves 97.53 percent of GPT-4's accuracy while reducing API costs by 28.81 percent on average, and even outperforms GPT-4 in a specific benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクで最先端のパフォーマンスを実証している。
しかし、ハイパフォーマンスモデルは一般的にAPI経由でのみアクセスでき、かなりの推論コストが発生する。
カスケードメソッドは、当初より安価なモデルを採用し、必要であればより強力なモデルにエスカレートすることで、この問題に対処する。
それでも、既存のカスケードアプローチは、信頼できる代表応答を選択し、正確なテキストマッチングに依存するため、自由形式の出力の全体的な信頼性を評価するのに苦労している。
これらの制約を克服するために、コスト効率の良いフリーフォームテキスト生成のための新しいフレームワークであるKeyword-inspired Cascade (KiC)を提案する。
KiCは、弱いモデルからの複数の出力の中で最も代表的な回答を特定し、他の応答のセマンティックアライメントを評価する。
調整の度合いに基づいて、KiCは弱いモデルの出力を受け入れるか、より強いモデルにエスカレートするかを決定する。
3つのフリーフォームテキスト生成ベンチマークの実験では、KiCはGPT-4の精度の97.33%を達成し、APIコストを平均28.81パーセント削減し、特定のベンチマークではGPT-4よりも優れていた。
関連論文リスト
- Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral [28.382040322550775]
本稿では,既存の品質推定(QE)メトリクスを推論規則として用いた機械翻訳の簡易かつ効果的な手法を提案する。
また,QEに基づくdeferralでは,カスケードシステムにより,より大規模なモデルの性能に適合し,短時間で呼び出すことが可能であることを示す。
論文 参考訳(メタデータ) (2025-02-18T10:05:40Z) - Cascade Reward Sampling for Efficient Decoding-Time Alignment [17.278488115500615]
復号時間アライメントにおける効率の両立を図るためにカスケード逆サンプリング(CARDS)を導入する。
CARDSは、大きな言語モデル(LLM)と報酬モデル(RM)の両方の冗長な計算を最小化する
論文 参考訳(メタデータ) (2024-06-24T04:08:35Z) - Faster Cascades via Speculative Decoding [66.16909847419198]
カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。