論文の概要: CoverBench: A Challenging Benchmark for Complex Claim Verification
- arxiv url: http://arxiv.org/abs/2408.03325v1
- Date: Tue, 6 Aug 2024 17:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:28:24.984781
- Title: CoverBench: A Challenging Benchmark for Complex Claim Verification
- Title(参考訳): CoverBench: 複雑なクレーム検証のためのベンチマーク
- Authors: Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu,
- Abstract要約: 複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。
CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。
低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
- 参考スコア(独自算出の注目度): 31.682854727229955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing line of research on verifying the correctness of language models' outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench .
- Abstract(参考訳): 言語モデルのアウトプットの正確性を検証する研究が増えている。
同時に、LMは推論を必要とする複雑なクエリに対処するために使われています。
CoverBenchは複雑な推論環境でのLM出力の検証に重点を置いた、挑戦的なベンチマークである。
この目的のために使用できるデータセットは、特定のユースケース(例えば財務表)をターゲットにした他の複雑な推論タスク(例えばQA)のために設計されることが多い。
CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、利用可能なテーブルの複数の表現、一貫性のあるスキーマなど、さまざまな標準化における複雑なクレーム検証のための多様化された評価を提供する。
低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
最後に、CoverBenchが困難であり、非常に重要なヘッドルームを持つことを示すために、さまざまな競争ベースラインの結果を報告します。
データはhttps://huggingface.co/datasets/google/coverbench で公開されている。
関連論文リスト
- MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。
本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。
複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文 参考訳(メタデータ) (2024-10-15T19:04:13Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and
Textual Data [7.063167712310221]
既存のハイブリットデータに対する質問応答ベンチマークには、各ドキュメントに1つのフラットテーブルしか含まれていない。
大規模ベンチマークであるMultiHierttを構築し、多階層タブラリデータとテクスチュアルデータにQAペアを配置する。
結果から,MultiHierttは,人的専門家の業績よりもはるかに遅れている既存のベースラインに対して,強い課題を呈していることがわかった。
論文 参考訳(メタデータ) (2022-06-03T00:24:35Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。