論文の概要: CoverBench: A Challenging Benchmark for Complex Claim Verification
- arxiv url: http://arxiv.org/abs/2408.03325v1
- Date: Tue, 6 Aug 2024 17:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:28:24.984781
- Title: CoverBench: A Challenging Benchmark for Complex Claim Verification
- Title(参考訳): CoverBench: 複雑なクレーム検証のためのベンチマーク
- Authors: Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu,
- Abstract要約: 複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。
CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。
低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
- 参考スコア(独自算出の注目度): 31.682854727229955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing line of research on verifying the correctness of language models' outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench .
- Abstract(参考訳): 言語モデルのアウトプットの正確性を検証する研究が増えている。
同時に、LMは推論を必要とする複雑なクエリに対処するために使われています。
CoverBenchは複雑な推論環境でのLM出力の検証に重点を置いた、挑戦的なベンチマークである。
この目的のために使用できるデータセットは、特定のユースケース(例えば財務表)をターゲットにした他の複雑な推論タスク(例えばQA)のために設計されることが多い。
CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、利用可能なテーブルの複数の表現、一貫性のあるスキーマなど、さまざまな標準化における複雑なクレーム検証のための多様化された評価を提供する。
低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
最後に、CoverBenchが困難であり、非常に重要なヘッドルームを持つことを示すために、さまざまな競争ベースラインの結果を報告します。
データはhttps://huggingface.co/datasets/google/coverbench で公開されている。
関連論文リスト
- Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models [48.38966595131693]
大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - Understanding the Effects of Noise in Text-to-SQL: An Examination of the BIRD-Bench Benchmark [0.23301643766310373]
本研究では,広範に使用されているBIRD-Benchベンチマークにおいて,ノイズの分布と種類を詳細に解析する。
質問やゴールドクエリのノイズがデータセットに広まっており、ドメイン毎にさまざまな量があることがわかった。
誤ったゴールドクエリの存在は、誤ったゴールド回答を発生させ、ベンチマークの信頼性に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-02-19T15:58:15Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and
Textual Data [7.063167712310221]
既存のハイブリットデータに対する質問応答ベンチマークには、各ドキュメントに1つのフラットテーブルしか含まれていない。
大規模ベンチマークであるMultiHierttを構築し、多階層タブラリデータとテクスチュアルデータにQAペアを配置する。
結果から,MultiHierttは,人的専門家の業績よりもはるかに遅れている既存のベースラインに対して,強い課題を呈していることがわかった。
論文 参考訳(メタデータ) (2022-06-03T00:24:35Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。