Fugu-MT 論文翻訳(概要): CoverBench: A Challenging Benchmark for Complex Claim Verification

論文の概要: CoverBench: A Challenging Benchmark for Complex Claim Verification

arxiv url: http://arxiv.org/abs/2408.03325v1
Date: Tue, 6 Aug 2024 17:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 13:28:24.984781
Title: CoverBench: A Challenging Benchmark for Complex Claim Verification
Title（参考訳）: CoverBench: 複雑なクレーム検証のためのベンチマーク
Authors: Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu,
Abstract要約: 複雑な推論条件下でのLM出力の検証に重点を置いたベンチマークであるCoverBenchを紹介する。 CoverBenchは、さまざまなドメインにおける複雑なクレーム検証のための多彩な評価を提供する。低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。
参考スコア（独自算出の注目度）: 31.682854727229955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a growing line of research on verifying the correctness of language models' outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench .
Abstract（参考訳）: 言語モデルのアウトプットの正確性を検証する研究が増えている。同時に、LMは推論を必要とする複雑なクエリに対処するために使われています。 CoverBenchは複雑な推論環境でのLM出力の検証に重点を置いた、挑戦的なベンチマークである。この目的のために使用できるデータセットは、特定のユースケース(例えば財務表)をターゲットにした他の複雑な推論タスク(例えばQA)のために設計されることが多い。 CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、利用可能なテーブルの複数の表現、一貫性のあるスキーマなど、さまざまな標準化における複雑なクレーム検証のための多様化された評価を提供する。低レベルのラベルノイズを確実にするために、手動でデータの品質を検証します。最後に、CoverBenchが困難であり、非常に重要なヘッドルームを持つことを示すために、さまざまな競争ベースラインの結果を報告します。データはhttps://huggingface.co/datasets/google/coverbench で公開されている。

関連論文リスト

PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳（メタデータ） (2025-03-11T05:02:03Z)
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。 ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。 ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文参考訳（メタデータ） (2024-12-09T18:37:14Z)
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文参考訳（メタデータ） (2024-10-17T12:48:14Z)
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文参考訳（メタデータ） (2024-10-15T19:04:13Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文参考訳（メタデータ） (2024-06-07T16:59:38Z)
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文参考訳（メタデータ） (2024-05-08T15:05:55Z)
ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文参考訳（メタデータ） (2024-03-08T12:42:36Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)
MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data [7.063167712310221]
既存のハイブリットデータに対する質問応答ベンチマークには、各ドキュメントに1つのフラットテーブルしか含まれていない。大規模ベンチマークであるMultiHierttを構築し、多階層タブラリデータとテクスチュアルデータにQAペアを配置する。結果から,MultiHierttは,人的専門家の業績よりもはるかに遅れている既存のベースラインに対して,強い課題を呈していることがわかった。
論文参考訳（メタデータ） (2022-06-03T00:24:35Z)
A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。 Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文参考訳（メタデータ） (2022-01-15T08:49:09Z)
A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文参考訳（メタデータ） (2021-05-25T20:35:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。