論文の概要: CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning
of Large Language Models
- arxiv url: http://arxiv.org/abs/2112.11941v1
- Date: Wed, 22 Dec 2021 15:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:06:48.850946
- Title: CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning
of Large Language Models
- Title(参考訳): CRASS: 大規模言語モデルの対実的推論をテストするための新しいデータセットとベンチマーク
- Authors: J\"org Frohberg and Frank Binder
- Abstract要約: CRASS (counterfactual reasoning Assessment) データセットと,疑わしい反事実条件を利用したベンチマークを導入する。
我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the CRASS (counterfactual reasoning assessment) data set and
benchmark utilizing questionized counterfactual conditionals as a novel and
powerful tool to evaluate large language models. We present the data set design
and benchmark as well as the accompanying API that supports scoring against a
crowd-validated human baseline. We test six state-of-the-art models against our
benchmark. Our results show that it poses a valid challenge for these models
and opens up considerable room for their improvement.
- Abstract(参考訳): 大規模言語モデルを評価するための新しい強力なツールとして,疑わしい反事実条件を利用したCRASSデータセットとベンチマークを導入する。
我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを紹介する。
ベンチマークに対して6つの最先端モデルをテストします。
その結果、これらのモデルにとって有効な課題となり、改善の余地が生まれることがわかりました。
関連論文リスト
- Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy [32.083896395844924]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z) - Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。
最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。
我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文 参考訳(メタデータ) (2020-04-29T08:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。