Fugu-MT 論文翻訳(概要): Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

論文の概要: Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

arxiv url: http://arxiv.org/abs/2409.00844v1
Date: Sun, 1 Sep 2024 21:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 08:51:29.886451
Title: Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries
Title（参考訳）: レポートカード:自然言語要約を用いた言語モデルの質的評価
Authors: Blair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang,
Abstract要約: 本稿では,人間に解釈可能な,特定のスキルやトピックに対するモデル行動の自然言語要約であるレポートカードを提案する。本研究は,3つの基準に基づいてレポートカードの評価を行う枠組みを開発する。特異性(モデル区別能力),忠実性(モデル能力の正確な表現),解釈可能性(人間への明瞭さと妥当性)である。
参考スコア（独自算出の注目度）: 33.39343288446156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development and dynamic nature of large language models (LLMs) make it difficult for conventional quantitative benchmarks to accurately assess their capabilities. We propose report cards, which are human-interpretable, natural language summaries of model behavior for specific skills or topics. We develop a framework to evaluate report cards based on three criteria: specificity (ability to distinguish between models), faithfulness (accurate representation of model capabilities), and interpretability (clarity and relevance to humans). We also propose an iterative algorithm for generating report cards without human supervision and explore its efficacy by ablating various design choices. Through experimentation with popular LLMs, we demonstrate that report cards provide insights beyond traditional benchmarks and can help address the need for a more interpretable and holistic evaluation of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な開発と動的性質により、従来の定量的ベンチマークではそれらの能力を正確に評価することは困難である。本稿では,人間に解釈可能な,特定のスキルやトピックに対するモデル行動の自然言語要約であるレポートカードを提案する。本研究は,3つの基準に基づいてレポートカードの評価を行う枠組みを開発する。特異性(モデル区別能力),忠実性(モデル能力の正確な表現),解釈可能性(人間への明瞭さと妥当性)である。また,人間を指導せずにレポートカードを生成するための反復アルゴリズムを提案する。一般的なLCMを用いた実験を通じて,レポートカードが従来のベンチマーク以上の洞察を与え,LCMのより解釈可能な総合的な評価の必要性に対処できることを実証する。

関連論文リスト

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics [18.936553687978087]
大規模言語モデル (LLM) は、自然言語生成のための評価器としてますます使われている。 GER-Evalを導入し,LLMが独自の評価ルーブリックを設計および適用できるかどうかを検討する。
論文参考訳（メタデータ） (2026-02-09T13:56:06Z)
Integrating Neural and Symbolic Components in a Model of Pragmatic Question-Answering [9.043409663314419]
本稿では確率論的認知モデルを強化するニューロシンボリックフレームワークを提案する。認知モデルにニューラルモジュールを組み込むための様々なアプローチについて検討する。ハイブリッドモデルは、人間の回答パターンを予測する際に、従来の確率モデルの性能と一致したり、超えたりすることができる。
論文参考訳（メタデータ） (2025-06-02T09:34:37Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
BELL: Benchmarking the Explainability of Large Language Models [0.0]
大規模言語モデルは自然言語処理において顕著な能力を示してきたが、意思決定プロセスは透明性を欠いていることが多い。本稿では,大規模言語モデルの説明可能性を評価するためのベンチマーク手法であるベンチマーク手法を提案する。
論文参考訳（メタデータ） (2025-04-22T11:15:23Z)
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-27T15:36:24Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-15T09:19:42Z)
An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T22:10:52Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文参考訳（メタデータ） (2024-05-16T16:56:54Z)
PRobELM: Plausibility Ranking Evaluation for Language Models [12.057770969325453]
PRobELM(PRobELM)は、言語モデルがパラメトリック知識を通じてより妥当なシナリオを識別する能力を評価するために設計されたベンチマークである。我々のベンチマークは、Wikidata編集履歴から算出したデータセットから構築され、評価されたモデルに対するトレーニングデータの時間的境界を整列するように調整されている。
論文参考訳（メタデータ） (2024-04-04T21:57:11Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文参考訳（メタデータ） (2023-06-02T17:59:09Z)
Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文参考訳（メタデータ） (2022-04-13T10:32:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。