論文の概要: Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches
- arxiv url: http://arxiv.org/abs/2511.20683v1
- Date: Mon, 17 Nov 2025 21:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.740184
- Title: Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches
- Title(参考訳): 出力トークン生成最適化のための動的テンプレート選択:MLPと変圧器のアプローチ
- Authors: Bharadwaj Yadavalli,
- Abstract要約: 動的テンプレート選択は応答品質を損なうことなく大幅なコスト削減を実現する。
この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary large language model deployments typically employ uniform prompting strategies across diverse query types, applying verbose response patterns to both complex analytical tasks and straightforward factual questions. This one-size-fits-all methodology leads to substantial token inefficiency, a concern amplified by the significant cost differential between input and output tokens--the latter commanding 4-8x higher prices across major providers. We present Dynamic Template Selection (DTS), which adaptively matches response templates to query complexity, achieving significant cost reductions without compromising response quality. We compared two routing approaches: a simple MLP that uses pre-computed embeddings and a more complex fine-tuned RoBERTa transformer. Through comprehensive evaluation on 1,000 MMLU questions, we find that the MLP router achieves 90.5% routing accuracy on held-out test data, marginally exceeding RoBERTa's performance (89.5%) despite utilizing 125M fewer parameters. Notably, our empirical analysis reveals provider-agnostic behavior in template selection--routing decisions generalize effectively across 3 major LLM providers (OpenAI GPT-4, Google Gemini, and Anthropic Claude), as validated through 9,000 production API calls. While routing accuracy remains consistent at 90.5% across providers, observed token reductions vary from 32.6% to 33.9%, reflecting provider-specific generation characteristics. This work contributes several key elements: formal problem formulation with theoretical grounding in machine learning, four algorithms with corresponding complexity analyses, and extensive empirical validation across production systems.
- Abstract(参考訳): 現代の大規模言語モデルのデプロイメントでは、さまざまなクエリタイプにまたがる統一的なプロンプト戦略を採用し、複雑な分析タスクと単純な事実質問の両方に冗長な応答パターンを適用している。
これは、入力トークンと出力トークンの大幅なコスト差によって増幅される懸念であり、後者は主要なプロバイダ間で4-8倍高い価格を指示する。
応答テンプレートとクエリの複雑性を適応的にマッチングし,応答品質を損なうことなく大幅なコスト削減を実現する動的テンプレート選択(DTS)を提案する。
プリコンパイルされた埋め込みを利用する単純なMLPと、より複雑なRoBERTa変換器の2つのルーティング手法を比較した。
1000のMMLU質問に対する総合的な評価により、MLPルータは、125万個のパラメータを使用せずに、RoBERTaのパフォーマンス(89.5%)を極端に上回り、保持されたテストデータに対して90.5%のルーティング精度を達成することがわかった。
特に、私たちの経験的分析では、9000のプロダクションAPIコールを通じて検証された3つの主要なLCMプロバイダ(OpenAI GPT-4, Google Gemini, Anthropic Claude)に対して、テンプレート選択におけるプロバイダに依存しない動作を効果的に一般化する。
ルーティングの精度は提供者間で90.5%であるが、観測されたトークンの減少はプロバイダ固有の生成特性を反映して32.6%から33.9%に変化している。
この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Semantic Bridge: Universal Multi-Hop Question Generation via AMR-Driven Graph Synthesis [3.1427813443719868]
大きな言語モデル(LLM)のトレーニングは、高品質で推論集約的な質問応答ペアの不足という、重大なボトルネックに直面します。
textbfSemantic Bridgeは、任意の情報源から洗練されたマルチホップ推論質問を制御可能とする最初の普遍的フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T10:59:42Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR [30.240680920617447]
我々は,OCRの不確かさを定量化するトレーニング不要なポスト推論手法であるConsensus Entropy (CE)を紹介した。
問題のあるサンプルを効果的に識別し、最良の出力を選択し、モデル強度を組み合わせる軽量なマルチモデルフレームワークを開発する。
論文 参考訳(メタデータ) (2025-04-15T11:51:18Z) - Language Models (Mostly) Know When to Stop Reading [24.246459354913146]
大規模言語モデル(LLM)は、クエリに応答するために必要な情報がコンテキスト内にローカライズされた場合、入力コンテキスト全体を無差別に処理する。
タスク関連情報を取得する際に, LLM が自己決定処理を行うことのできる新しい手法である動的コンテキストカットオフを提案する。
論文 参考訳(メタデータ) (2025-02-03T03:38:29Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。