Fugu-MT 論文翻訳(概要): StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

論文の概要: StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation

arxiv url: http://arxiv.org/abs/2408.03281v2
Date: Wed, 7 Aug 2024 01:00:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 12:15:09.173506
Title: StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation
Title（参考訳）: StructEval:構造化評価による大規模言語モデル評価の深化と広化
Authors: Boxi Cao, Mengjie Ren, Hongyu Lin, Xianpei Han, Feng Zhang, Junfeng Zhan, Le Sun,
Abstract要約: 本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
参考スコア（独自算出の注目度）: 46.59416831869014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluation is the baton for the development of large language models. Current evaluations typically employ a single-item assessment paradigm for each atomic test objective, which struggles to discern whether a model genuinely possesses the required capabilities or merely memorizes/guesses the answers to specific questions. To this end, we propose a novel evaluation framework referred to as StructEval. Starting from an atomic test objective, StructEval deepens and broadens the evaluation by conducting a structured assessment across multiple cognitive levels and critical concepts, and therefore offers a comprehensive, robust and consistent evaluation for LLMs. Experiments on three widely-used benchmarks demonstrate that StructEval serves as a reliable tool for resisting the risk of data contamination and reducing the interference of potential biases, thereby providing more reliable and consistent conclusions regarding model capabilities. Our framework also sheds light on the design of future principled and trustworthy LLM evaluation protocols.
Abstract（参考訳）: 評価は、大きな言語モデルを開発するためのバトンである。現在の評価では、通常、各原子テストの目標に対して単一項目の評価パラダイムが採用されている。これは、モデルが本当に必要な能力を持っているか、あるいは単に特定の質問に対する回答を覚えたり、理解したりするのに苦労している。そこで本研究では,StructEvalと呼ばれる新しい評価フレームワークを提案する。原子実験の目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張し、LLMに対して包括的で堅牢で一貫した評価を提供する。広く使用されている3つのベンチマークの実験では、StructEvalはデータ汚染のリスクに抵抗し、潜在的なバイアスの干渉を減らすための信頼性の高いツールとして機能し、モデル機能に関するより信頼性が高く一貫性のある結論を提供する。我々のフレームワークはまた、将来の原則および信頼性の高いLCM評価プロトコルの設計にも光を当てています。

関連論文リスト

LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。 LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。 LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文参考訳（メタデータ） (2025-08-07T14:46:30Z)
Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment [63.07424521895492]
モデル反転(MI)攻撃は、機械学習モデルTへのアクセスを利用して、プライベートトレーニングデータから情報を再構築することを目的としている。このような攻撃に対する標準的な評価フレームワークは、Tと同じタスク設計で訓練された評価モデルEに依存している。このフレームワークはMI研究の進歩を評価するためのデファクトスタンダードとなり、近年のMI攻撃や防衛のほとんどすべてで問題なく使用されている。
論文参考訳（メタデータ） (2025-05-06T13:32:12Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。 NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文参考訳（メタデータ） (2024-12-02T20:49:21Z)
MIBench: A Comprehensive Framework for Benchmarking Model Inversion Attack and Defense [42.56467639172508]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。我々は、モデル反転攻撃と防御の体系的評価のためのMIBenchという最初の実用的なベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-07T16:13:49Z)
Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries [54.325172923155414]
ミケランジェロ(Michelangelo)は、大規模言語モデルに対する最小限の、合成的で、未学習の長文推論評価である。この評価は、任意に長いコンテキストに対する評価のための、新しく統一された枠組みによって導出される。
論文参考訳（メタデータ） (2024-09-19T10:38:01Z)
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文参考訳（メタデータ） (2024-07-29T03:37:14Z)
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Establishing Trustworthiness: Rethinking Tasks and Model Evaluation [36.329415036660535]
我々は、NLPにおけるタスクとモデル評価を構成するものを再考する時が来たと論じる。本稿では,モデルの機能的能力の起源を理解するために,既存のコンパートナライズドアプローチについてレビューする。
論文参考訳（メタデータ） (2023-10-09T06:32:10Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。彼らは敵の防御を動機付ける敵の例に弱い。本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-01-24T01:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。