論文の概要: StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs
- arxiv url: http://arxiv.org/abs/2412.18011v1
- Date: Mon, 23 Dec 2024 22:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:38.670426
- Title: StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs
- Title(参考訳): StructTest: 構成構造出力によるLLMの推論のベンチマーク
- Authors: Hailin Chen, Fangkai Jiao, Mathieu Ravaut, Nawshad Farruque, Xuan Phi Nguyen, Chengwei Qin, Manan Dey, Bosheng Ding, Caiming Xiong, Shafiq Joty, Yingbo Zhou,
- Abstract要約: StructTestは、構造化されたアウトプットを生成する能力に基づいて、大きな言語モデルを評価する新しいベンチマークである。
StructTestが一般的な推論能力のよいプロキシであることを示す。
- 参考スコア(独自算出の注目度): 78.84060166851805
- License:
- Abstract: The rapid development of large language models (LLMs) necessitates robust, unbiased, and scalable methods for evaluating their capabilities. However, human annotations are expensive to scale, model-based evaluations are prone to biases in answer style, while target-answer-based benchmarks are vulnerable to data contamination and cheating. To address these limitations, we propose StructTest, a novel benchmark that evaluates LLMs on their ability to produce compositionally specified structured outputs as an unbiased, cheap-to-run and difficult-to-cheat measure. The evaluation is done deterministically by a rule-based evaluator, which can be easily extended to new tasks. By testing structured outputs across diverse task domains -- including Summarization, Code, HTML and Math -- we demonstrate that StructTest serves as a good proxy for general reasoning abilities, as producing structured outputs often requires internal logical reasoning. We believe that StructTest offers a critical, complementary approach to objective and robust model evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、その能力を評価するために、堅牢で偏りのない、スケーラブルな方法を必要とする。
しかし、人間のアノテーションはスケールするのに費用がかかり、モデルベースの評価は回答スタイルのバイアスになりがちであるが、ターゲット回答ベースのベンチマークはデータの汚染や不正に弱い。
これらの制約に対処するため、我々は、LLMを非バイアスで安価でチートな測定値として構成的に規定された出力を生成する能力に基づいて評価する新しいベンチマークであるStructTestを提案する。
評価はルールベースの評価器によって決定的に行われ、新しいタスクに容易に拡張できる。
さまざまなタスクドメイン(Summarization、Code、HTML、Mathなど)で構造化されたアウトプットをテストすることで、StructTestが一般的な推論能力のプロキシとして機能することを示した。
StructTestは、客観的かつ堅牢なモデル評価に対して、批判的で補完的なアプローチを提供すると考えています。
関連論文リスト
- StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。
原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。
広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文 参考訳(メタデータ) (2024-08-06T16:28:30Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - FollowEval: A Multi-Dimensional Benchmark for Assessing the
Instruction-Following Capability of Large Language Models [42.72420855478716]
FollowEvalベンチマークは、英語と中国語の両方のインスタンスで構成されている。
それぞれのテスト例は、複数の次元を評価するように設計されています。
我々は、FollowEvalベンチマークを用いて様々なLCMを評価し、その性能が人間のそれよりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:53:31Z) - RoCar: A Relationship Network-based Evaluation Method for Large Language Models [20.954826722195847]
大規模言語モデル(LLM)の機能をどのように合理的に評価するかは、まだ解決すべき課題である。
本稿では,定義された基本スキーマを用いてタスクグラフをランダムに構築するRoCar法を提案する。
テスト対象のLSMが直接評価タスクを学習していないことを保証し,評価手法の公平性を保証することが可能である。
論文 参考訳(メタデータ) (2023-07-29T14:47:07Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。