論文の概要: CASTILLO: Characterizing Response Length Distributions of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16881v1
- Date: Thu, 22 May 2025 16:35:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.459869
- Title: CASTILLO: Characterizing Response Length Distributions of Large Language Models
- Title(参考訳): CASTILLO:大規模言語モデルの応答長分布の特徴付け
- Authors: Daniel F. Perez-Ramirez, Dejan Kostic, Magnus Boman,
- Abstract要約: CASTILLO(CASTILLO)は、広く使われている13の大規模言語モデルにまたがる応答長分布を特徴付けるデータセットである。
本分析では,応答長のモデル間およびモデル内変動と,応答のサブセットのみにおけるモデル特異的な振る舞いと部分的テキスト変性の発生を明らかにした。
- 参考スコア(独自算出の注目度): 3.5041586868397854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently managing compute resources for Large Language Model (LLM) inference remains challenging due to the inherently stochastic and variable lengths of autoregressive text generation. Accurately estimating response lengths in advance enables proactive resource allocation, yet existing approaches either bias text generation towards certain lengths or rely on assumptions that ignore model- and prompt-specific variability. We introduce CASTILLO, a dataset characterizing response length distributions across 13 widely-used open-source LLMs evaluated on seven distinct instruction-following corpora. For each $\langle$prompt, model$\rangle$ sample pair, we generate 10 independent completions using fixed decoding hyper-parameters, record the token length of each response, and publish summary statistics (mean, std-dev, percentiles), along with the shortest and longest completions, and the exact generation settings. Our analysis reveals significant inter- and intra-model variability in response lengths (even under identical generation settings), as well as model-specific behaviors and occurrences of partial text degeneration in only subsets of responses. CASTILLO enables the development of predictive models for proactive scheduling and provides a systematic framework for analyzing model-specific generation behaviors. We publicly release the dataset and code to foster research at the intersection of generative language modeling and systems.
- Abstract(参考訳): 大規模言語モデル(LLM)推論のための効率的な計算資源の管理は、本質的に確率的かつ可変な自動回帰テキスト生成のため、依然として困難である。
応答長を正確に推定することで、プロアクティブなリソース割り当てが可能になるが、既存のアプローチでは、特定の長さに対してバイアステキストを生成するか、モデルやプロンプト固有の変数を無視した仮定に依存する。
CASTILLO(CASTILLO)は、7つの命令追従コーパスで評価された13のオープンソースLCMに対して応答長分布を特徴付けるデータセットである。
それぞれの$\langle$prompt, model$\rangle$サンプルペアに対して、固定されたデコードハイパーパラメータを使用して10個の独立した補完を生成し、各レスポンスのトークン長を記録し、サマリ統計(平均、std-dev、パーセンタイル)と、最も短くて長い補完と正確な生成設定を公開します。
分析の結果,応答長(同一生成条件下であっても)のモデル間およびモデル内変動が顕著であり,また,応答のサブセットのみにおけるモデル固有の振る舞いや部分的テキスト劣化の発生も明らかとなった。
CASTILLOは、プロアクティブスケジューリングのための予測モデルの開発を可能にし、モデル固有の生成挙動を分析するための体系的なフレームワークを提供する。
生成言語モデリングとシステムとの共通点における研究を促進するために,データセットとコードを公開している。
関連論文リスト
- Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models [14.175953642749649]
大きな言語モデルは、しばしば特定の長さの応答を生成するのに苦労する。
本稿では,長さ制約のある命令下での大規模言語モデルの命令追従能力を高めるために,ルールと呼ばれる新しいモデルに依存しない手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T17:44:58Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。