Fugu-MT 論文翻訳(概要): CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models

論文の概要: CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models

arxiv url: http://arxiv.org/abs/2112.11941v1
Date: Wed, 22 Dec 2021 15:03:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-23 15:06:48.850946
Title: CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models
Title（参考訳）: CRASS: 大規模言語モデルの対実的推論をテストするための新しいデータセットとベンチマーク
Authors: J\"org Frohberg and Frank Binder
Abstract要約: CRASS (counterfactual reasoning Assessment) データセットと,疑わしい反事実条件を利用したベンチマークを導入する。我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを提示する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the CRASS (counterfactual reasoning assessment) data set and benchmark utilizing questionized counterfactual conditionals as a novel and powerful tool to evaluate large language models. We present the data set design and benchmark as well as the accompanying API that supports scoring against a crowd-validated human baseline. We test six state-of-the-art models against our benchmark. Our results show that it poses a valid challenge for these models and opens up considerable room for their improvement.
Abstract（参考訳）: 大規模言語モデルを評価するための新しい強力なツールとして,疑わしい反事実条件を利用したCRASSデータセットとベンチマークを導入する。我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを紹介する。ベンチマークに対して6つの最先端モデルをテストします。その結果、これらのモデルにとって有効な課題となり、改善の余地が生まれることがわかりました。

関連論文リスト

Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models [24.481028155002523]
タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。 ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
論文参考訳（メタデータ） (2025-04-01T17:40:08Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文参考訳（メタデータ） (2024-10-30T17:59:01Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI [26.986832126456413]
我々は、地球観測のための基礎モデル(EO)と地理空間AIのコンピュータビジョン応用に焦点を当てた。限られたラベル付きデータに対して、ファンデーションモデルは問題固有モデルと比較して性能が向上することを示す。本稿では,EOファンデーションモデルの評価ベンチマークを用いて,下流タスクにおいて,ファンデーションモデルがラベル効率が高いことを示す。
論文参考訳（メタデータ） (2024-06-26T12:27:06Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文参考訳（メタデータ） (2024-02-11T18:26:18Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。 20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文参考訳（メタデータ） (2022-04-19T10:23:42Z)
A Systematic Investigation of Commonsense Understanding in Large Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文参考訳（メタデータ） (2021-10-31T22:20:36Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文参考訳（メタデータ） (2020-04-29T08:05:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。