論文の概要: ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2403.05266v1
- Date: Fri, 8 Mar 2024 12:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:59:50.262825
- Title: ERBench: An Entity-Relationship based Automatically Verifiable
Hallucination Benchmark for Large Language Models
- Title(参考訳): ERBench: エンティティ関係に基づく大規模言語モデルのための自動検証型幻覚ベンチマーク
- Authors: Jio Oh, Soyeon Kim, Junseok Seo, Jindong Wang, Ruochen Xu, Xing Xie,
Steven Euijong Whang
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションにおいて前例のない性能を達成したが、その評価は依然として重要な問題である。
既存のリレーショナルデータベースを利用することは、正確な知識記述のためにベンチマークを構築する上で有望なアプローチである、と我々は主張する。
本稿では,エンティティ・リレーショナル・モデル(ER)に基づいて,関係データベースを自動的にベンチマークに変換するERBenchを提案する。
- 参考スコア(独自算出の注目度): 48.38966595131693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved unprecedented performance in
various applications, yet their evaluation remains a critical issue. Existing
hallucination benchmarks are either static or lack adjustable complexity for
thorough analysis. We contend that utilizing existing relational databases is a
promising approach for constructing benchmarks due to their accurate knowledge
description via functional dependencies. We propose ERBench to automatically
convert any relational database into a benchmark based on the
entity-relationship (ER) model. Our key idea is to construct questions using
the database schema, records, and functional dependencies such that they can be
automatically verified. In addition, we use foreign key constraints to join
relations and construct multihop questions, which can be arbitrarily complex
and used to debug the intermediate answers of LLMs. Finally, ERBench supports
continuous evaluation, multimodal questions, and various prompt engineering
techniques. In our experiments, we construct an LLM benchmark using databases
of multiple domains and make an extensive comparison of contemporary LLMs. We
observe that better LLMs like GPT-4 can handle a larger variety of question
types, but are by no means perfect. Also, correct answers do not necessarily
imply correct rationales, which is an important evaluation that ERBench does
better than other benchmarks for various question types. Code is available at
https: //github.com/DILAB-KAIST/ERBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、それでも重要な問題である。
既存の幻覚ベンチマークは静的か、徹底的な分析のために調整可能な複雑さを欠いている。
既存のリレーショナルデータベースを利用することは、機能依存による正確な知識記述のため、ベンチマークを構築する上で有望なアプローチであると主張する。
entity-relationship(er)モデルに基づいて、任意のリレーショナルデータベースをベンチマークに自動変換するerbenchを提案する。
私たちの重要なアイデアは、データベーススキーマ、レコード、関数依存を使って、自動的に検証できるように質問を構築することです。
さらに、外部キー制約を用いて関係を結合し、任意に複雑でllmの中間的な回答をデバッグするために使用できるマルチホップ質問を構築する。
最後に、erbenchは継続的評価、マルチモーダル質問、さまざまな即席エンジニアリング技術をサポートする。
実験では,複数のドメインのデータベースを用いたLLMベンチマークを構築し,同時代のLLMを広範囲に比較した。
gpt-4のような優れたllmは、より多様な質問タイプを処理できるが、決して完璧ではない。
また、正しい答えは必ずしも正しい理性を意味するものではないため、ERBenchは様々な質問タイプに対する他のベンチマークよりも優れているという重要な評価である。
コードはhttps: //github.com/DILAB-KAIST/ERBenchで入手できる。
関連論文リスト
- Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - FanOutQA: Multi-Hop, Multi-Document Question Answering for Large
Language Models [40.800025261168265]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark
for Large Language Models [82.27118457984812]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench 上での10 つの LLM の評価により,LLM の弱さを強調し,今後の研究への道のりを示唆する。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:57:31Z) - AMLB: an AutoML Benchmark [9.642136611591578]
71の分類と33の回帰タスクで9つのよく知られたAutoMLフレームワークを徹底的に比較する。
ベンチマークにはオープンソースツールが付属しており、多くのAutoMLフレームワークと統合され、実証的な評価プロセスのエンドツーエンドを自動化する。
論文 参考訳(メタデータ) (2022-07-25T22:34:08Z) - Towards Realistic Optimization Benchmarks: A Questionnaire on the
Properties of Real-World Problems [2.805617945875364]
本研究は,実世界の問題の特徴をアンケートによって同定することを目的としている。
現実的なベンチマークの設計において考慮すべきいくつかの課題は、すでに特定できる。
今後の作業の重要なポイントは、質問に対する回答をもっと集めることだ。
論文 参考訳(メタデータ) (2020-04-14T10:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。