論文の概要: WRAVAL -- WRiting Assist eVALuation
- arxiv url: http://arxiv.org/abs/2601.03268v1
- Date: Fri, 19 Dec 2025 09:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.584861
- Title: WRAVAL -- WRiting Assist eVALuation
- Title(参考訳): WRAVAL -- WRiting Assist eValuation
- Authors: Gabriel Benedict, Matthew Butler, Naved Merchant, Eetu Salama-Laine,
- Abstract要約: 小言語モデル (SLM) は通常、推論の基準で、LLM (Large Language Models) よりも3~4倍低いスコアを得る。
本研究では,非推論タスクにおけるSLMの能力を強調するための評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.441391098440092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) has shifted language model evaluation toward reasoning and problem-solving tasks as measures of general intelligence. Small Language Models (SLMs) -- defined here as models under 10B parameters -- typically score 3-4 times lower than LLMs on these metrics. However, we demonstrate that these evaluations fail to capture SLMs' effectiveness in common industrial applications, such as tone modification tasks (e.g., funny, serious, professional). We propose an evaluation framework specifically designed to highlight SLMs' capabilities in non-reasoning tasks where predefined evaluation datasets don't exist. Our framework combines novel approaches in data generation, prompt-tuning, and LLM-based evaluation to demonstrate the potential of task-specific finetuning. This work provides practitioners with tools to effectively benchmark both SLMs and LLMs for practical applications, particularly in edge and private computing scenarios. Our implementation is available at: https://github.com/amazon-science/wraval.
- Abstract(参考訳): LLM(Large Language Models)の出現は、一般的な知能の尺度としての推論や問題解決タスクに言語モデルの評価をシフトさせてきた。
小さい言語モデル(SLM) - ここで10Bパラメータの下のモデルとして定義されている - は通常、これらのメトリクスでLLMよりも3~4倍低い。
しかし、これらの評価は、トーン修正タスク(例えば、面白い、真面目な、プロフェッショナル)など、一般的な産業応用におけるSLMの有効性を捉えることができないことを示す。
本研究では,事前定義された評価データセットが存在しない非推論タスクにおいて,SLMの能力を強調した評価フレームワークを提案する。
本フレームワークは,データ生成,プロンプトチューニング,LCMに基づく評価の新たなアプローチを組み合わせて,タスク固有の微調整の可能性を示す。
この作業は、特にエッジおよびプライベートコンピューティングのシナリオにおいて、SLMとLSMの両方を効果的にベンチマークするツールを提供する。
私たちの実装は、https://github.com/amazon-science/wraval.comで利用可能です。
関連論文リスト
- Beyond Next Word Prediction: Developing Comprehensive Evaluation Frameworks for measuring LLM performance on real world applications [3.686808512438363]
大規模言語モデル (LLM) には多くのユースケースがあり、すでにかなりの数の企業採用を獲得している。
本稿では,従来のゲームおよびツールベースのアーキテクチャに基づく,より包括的な評価フレームワークの基礎を提供する。
論文 参考訳(メタデータ) (2025-03-05T06:44:38Z) - Can LLMs Predict Citation Intent? An Experimental Analysis of In-context Learning and Fine-tuning on Open LLMs [0.464982780843177]
本研究では,Large Language Models (LLMs) を用いて,文脈内学習と微調整による引用意図の予測を行う。
0, 1-, few-, many-shot プロンプトを用いて, 5つの著名なオープン LLM ファミリーの12種類のモデル変動を評価した。
次に、このモデルを微調整し、SciCiteデータセットで8%、ACL-ARCデータセットで4.3%の相対的なF1スコア改善を実現し、タスク固有適応の意義を実証する。
論文 参考訳(メタデータ) (2025-02-20T13:45:42Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。