論文の概要: Do Chatbot LLMs Talk Too Much? The YapBench Benchmark
- arxiv url: http://arxiv.org/abs/2601.00624v1
- Date: Fri, 02 Jan 2026 09:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.548124
- Title: Do Chatbot LLMs Talk Too Much? The YapBench Benchmark
- Title(参考訳): チャットボットのLLMは多すぎるか?YapBenchベンチマーク
- Authors: Vadim Borisov, Michael Gröger, Mina Mikhael, Richard H. Schreiber,
- Abstract要約: YapBenchは、簡潔なイデアルプロンプトでユーザ可視のオーバージェネレーションを定量化するベンチマークである。
各項目は、1ターンプロンプト、キュレートされた最小限のベースライン回答、およびカテゴリラベルで構成される。
カテゴリーレベル中央値YapScoresの一様重み付き平均YapIndexを用いてモデル性能を要約する。
- 参考スコア(独自算出の注目度): 1.6149401958316794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT, Claude, and Gemini increasingly act as general-purpose copilots, yet they often respond with unnecessary length on simple requests, adding redundant explanations, hedging, or boilerplate that increases cognitive load and inflates token-based inference cost. Prior work suggests that preference-based post-training and LLM-judged evaluations can induce systematic length bias, where longer answers are rewarded even at comparable quality. We introduce YapBench, a lightweight benchmark for quantifying user-visible over-generation on brevity-ideal prompts. Each item consists of a single-turn prompt, a curated minimal-sufficient baseline answer, and a category label. Our primary metric, YapScore, measures excess response length beyond the baseline in characters, enabling comparisons across models without relying on any specific tokenizer. We summarize model performance via the YapIndex, a uniformly weighted average of category-level median YapScores. YapBench contains over three hundred English prompts spanning three common brevity-ideal settings: (A) minimal or ambiguous inputs where the ideal behavior is a short clarification, (B) closed-form factual questions with short stable answers, and (C) one-line coding tasks where a single command or snippet suffices. Evaluating 76 assistant LLMs, we observe an order-of-magnitude spread in median excess length and distinct category-specific failure modes, including vacuum-filling on ambiguous inputs and explanation or formatting overhead on one-line technical requests. We release the benchmark and maintain a live leaderboard for tracking verbosity behavior over time.
- Abstract(参考訳): ChatGPT、Claude、Geminiといった大規模言語モデル(LLM)は、益々汎用のコピロとして機能するが、単純な要求に対して不要な長さで応答し、冗長な説明、ヘッジ、ボイラープレートを追加し、認知負荷を増やし、トークンベースの推論コストを膨らませる。
事前の研究は、選好ベースのポストトレーニングとLCMによる評価は、体系的な長さバイアスを引き起こす可能性があることを示唆している。
YapBenchは、可視的過剰生成を簡潔なイデアルプロンプトで定量化するための軽量なベンチマークである。
各項目は、1ターンプロンプト、キュレートされた最小限のベースライン回答、およびカテゴリラベルで構成される。
私たちの主要なメトリックであるYapScoreは、文字のベースラインを超えた過剰な応答長を測定し、特定のトークン化子に頼ることなく、モデル間での比較を可能にします。
カテゴリーレベル中央値YapScoresの一様重み付き平均YapIndexを用いてモデル性能を要約する。
YapBench には、(A) 理想的な振る舞いが短い明確化である最小または曖昧な入力、(B) 短い安定した回答を持つクローズドフォームの事実質問、(C) 単一のコマンドやスニペットが十分である1行のコーディングタスクの3つにまたがる300以上の英語のプロンプトが含まれている。
76個の補助LDMを評価したところ,一直線の技術的要求に対する真空充填や説明・フォーマットオーバーヘッドを含む,中央値の超過長と個別のカテゴリー別障害モードで拡散する大域秩序が観察された。
ベンチマークをリリースし、時間とともに冗長性行動を追跡するためのライブのリーダボードを維持します。
関連論文リスト
- Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs [55.827877498548965]
単一プロンプト固有の振る舞い等価トークン([BE])を学習する軽量なトレーニングフレームワークを提案する。
フレームワークはまず[BE]に、元のシステムプロンプトの自然言語内容を再構成してエンコードし、その後、プロンプトの下流の振る舞いをこの単一のトークンに蒸留するように訓練する。
3つのデータセットに対する実証的な評価は、1つの[BE]トークンが3000倍の高速化を実現し、元のシステムの下流性能の約98%を維持していることを示している。
論文 参考訳(メタデータ) (2025-11-28T15:22:52Z) - DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models [13.242009624334996]
DynaSpecは動的ショートリスト機構で、堅牢で、ドラフトをスピードアップし、さまざまなタスクにまたがって一般化する。
Llama-3-8Bでは許容される平均長を98.2%まで改善した。
文脈依存の選択を利用することで、DynaSpecは生成トークンの最大2.18倍、固定語彙アプローチの1.91倍を達成する。
論文 参考訳(メタデータ) (2025-10-11T19:38:07Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。
オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文 参考訳(メタデータ) (2025-06-18T07:49:13Z) - Reducing the Scope of Language Models [7.464494269745494]
言語モデルのスコープ化が可能であることを示す。
我々は無関係なクエリの多様性、レイヤの異なるテクニック、敵対的な評価を行う。
我々は,言語モデルをスコーピングする実践者のガイドとして,本研究を行おうとしている。
論文 参考訳(メタデータ) (2024-10-28T23:06:57Z) - BYOC: Personalized Few-Shot Classification with Co-Authored Class
Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。
わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。
例、質問、回答は、分類プロンプトを形成するために要約される。
論文 参考訳(メタデータ) (2023-10-09T19:37:38Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。