論文の概要: AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models
- arxiv url: http://arxiv.org/abs/2407.08351v1
- Date: Thu, 11 Jul 2024 10:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-12 17:59:20.711226
- Title: AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models
- Title(参考訳): AutoBencher: 言語モデルのための健全で、新しい、難しいデータセットを作成する
- Authors: Xiang Lisa Li, Evan Zheran Liu, Percy Liang, Tatsunori Hashimoto,
- Abstract要約: 3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
- 参考スコア(独自算出の注目度): 84.65095045762524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is critical for assessing capabilities, tracking scientific progress, and informing model selection. In this paper, we present three desiderata for a good benchmark for language models: (i) salience (e.g., knowledge about World War II is more salient than a random day in history), (ii) novelty (i.e., the benchmark reveals new trends in model rankings not shown by previous benchmarks), and (iii) difficulty (i.e., the benchmark should be difficult for existing models, leaving headroom for future improvement). We operationalize these three desiderata and cast benchmark creation as a search problem, that of finding benchmarks that that satisfy all three desiderata. To tackle this search problem, we present AutoBencher, which uses a language model to automatically search for datasets that meet the three desiderata. AutoBencher uses privileged information (e.g. relevant documents) to construct reliable datasets, and adaptivity with reranking to optimize for the search objective. We use AutoBencher to create datasets for math, multilingual, and knowledge-intensive question answering. The scalability of AutoBencher allows it to test fine-grained categories and tail knowledge, creating datasets that are on average 27% more novel and 22% more difficult than existing benchmarks. A closer investigation of our constructed datasets shows that we can identify specific gaps in LM knowledge in language models that are not captured by existing benchmarks, such as Gemini Pro performing much worse on question answering about the Permian Extinction and Fordism, while OpenAGI-7B performing surprisingly well on QA about COVID-19.
- Abstract(参考訳): 評価は、能力の評価、科学的進歩の追跡、モデル選択のインフォームに不可欠である。
本稿では、言語モデルのための優れたベンチマークのための3つのデシラタを示す。
(i)サリエンス(例えば、第二次世界大戦に関する知識は、歴史上のランダムな日よりもより健全である)
(II)新規性(例えば、ベンチマークは、以前のベンチマークでは示されていないモデルランキングの新しい傾向を明らかにする)、そして
(iii)困難(つまり、ベンチマークは既存のモデルでは困難であり、将来の改善のためにヘッドルームを残しなければならない)。
これら3つのデシラタとキャストベンチマーク作成を探索問題として運用し、これら3つのデシラタを全て満たすベンチマークを見つける。
この問題を解決するために,3つのデシダータを満たすデータセットを自動的に検索する言語モデルを用いたAutoBencherを提案する。
AutoBencherは、信頼できるデータセットを構築するために特権情報(関連するドキュメントなど)を使用し、検索目的のために最適化するために再ランク付けされた適応性を使用する。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
AutoBencherのスケーラビリティにより、詳細なカテゴリとテールナレッジをテストすることができ、既存のベンチマークよりも平均して27%の新規性と22%の難しいデータセットを生成することができる。
構築されたデータセットを詳細に調査した結果、既存のベンチマークで捉えていない言語モデルにおいて、LM知識の特定のギャップを特定できることが判明した。例えば、Gemini ProはPermian ExtinctionやFordismに関する質問に答える上で、はるかに悪く、OpenAGI-7Bは新型コロナウイルスに関するQAで驚くほどよく機能している。
関連論文リスト
- Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models [24.481028155002523]
タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。
ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。
実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
論文 参考訳(メタデータ) (2025-04-01T17:40:08Z) - TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - An Evaluation Framework for Attributed Information Retrieval using Large Language Models [5.216296688442701]
本稿では,属性情報検索の評価とベンチマークを行うフレームワークを提案する。
属性付き情報探索データセットであるHAGRIDを用いた実験では、さまざまなシナリオが回答の正しさと帰属性に与える影響が示されている。
論文 参考訳(メタデータ) (2024-09-12T12:57:08Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - Prompt Stability Scoring for Text Annotation with Large Language Models [0.0]
研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。
これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。
LM出力の診断は、にもかかわらず、プロンプト設計の小さな変更に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-02T08:11:18Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Enhancing Retrieval Processes for Language Generation with Augmented
Queries [0.0]
本研究は,実事実に基づく正確な応答をモデルに誘導するRAG(Retrieval-Augmented Generation)を通じてこの問題に対処することに焦点を当てる。
スケーラビリティの問題を克服するために、BERTやOrca2といった洗練された言語モデルとユーザクエリを結びつけることを検討する。
実験結果から,RAGによる初期言語モデルの性能向上が示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:19:53Z) - Automatic Evaluation of Attribution by Large Language Models [24.443271739599194]
大規模言語モデル(LLM)による属性の自動評価について検討する。
まず、異なる種類の属性エラーを定義し、次に自動評価のための2つのアプローチを検討する。
生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。
論文 参考訳(メタデータ) (2023-05-10T16:58:33Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。