論文の概要: Know Or Not: a library for evaluating out-of-knowledge base robustness
- arxiv url: http://arxiv.org/abs/2505.13545v1
- Date: Mon, 19 May 2025 03:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.387533
- Title: Know Or Not: a library for evaluating out-of-knowledge base robustness
- Title(参考訳): Know or Not: 知識外ベースロバスト性を評価するライブラリ
- Authors: Jessica Foo, Pradyumna Shyama Prasad, Shaun Khoo,
- Abstract要約: 大規模言語モデル(LLM)のOOKB(out-of-knowledge base)ロバスト性を体系的に評価するための新しい手法を提案する。
我々は,オープンソースライブラリである knowornot に方法論を実装し,ユーザがOOKB の堅牢性のために独自の評価データとパイプラインを開発できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the capabilities of large language models (LLMs) have progressed significantly, their use in high-stakes applications have been limited due to risks of hallucination. One key approach in reducing hallucination is retrieval-augmented generation (RAG), but even in such setups, LLMs may still hallucinate when presented with questions outside of the knowledge base. Such behavior is unacceptable in high-stake applications where LLMs are expected to abstain from answering queries it does not have sufficient context on. In this work, we present a novel methodology for systematically evaluating out-of-knowledge base (OOKB) robustness of LLMs (whether LLMs know or do not know) in the RAG setting, without the need for manual annotation of gold standard answers. We implement our methodology in knowornot, an open-source library that enables users to develop their own customized evaluation data and pipelines for OOKB robustness. knowornot comprises four main features. Firstly, it provides a unified, high-level API that streamlines the process of setting up and running robustness benchmarks. Secondly, its modular architecture emphasizes extensibility and flexibility, allowing users to easily integrate their own LLM clients and RAG settings. Thirdly, its rigorous data modeling design ensures experiment reproducibility, reliability and traceability. Lastly, it implements a comprehensive suite of tools for users to customize their pipelines. We demonstrate the utility of knowornot by developing a challenging benchmark, PolicyBench, which spans four Question-Answer (QA) chatbots on government policies, and analyze its OOKB robustness. The source code of knowornot is available https://github.com/govtech-responsibleai/KnowOrNot.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力は著しく進歩してきたが、幻覚のリスクのため、高い評価のアプリケーションでの使用は制限されている。
幻覚を減少させる1つの重要なアプローチは、検索増強生成(RAG)であるが、そのような設定であっても、LLMは知識ベース外の質問を提示しても幻覚を生じさせる可能性がある。
このような振舞いは、LLMが十分なコンテキストを持っていないクエリの応答を控えることを期待されている高精細なアプリケーションでは受け入れられない。
本研究では,ROG設定におけるLLMの非知識ベース(OOKB)ロバスト性を,ゴールド標準回答の手動アノテーションを必要とせず,体系的に評価する手法を提案する。
我々は、ユーザがOOKBの堅牢性のために独自の評価データとパイプラインを開発できるオープンソースライブラリである knowornot に、我々の方法論を実装した。
knowornotは4つの主要な特徴から構成されます。
まず、堅牢性ベンチマークの設定と実行のプロセスを合理化する、統一された高レベルAPIを提供する。
第2に、モジュールアーキテクチャは拡張性と柔軟性を重視しており、ユーザが自身のLLMクライアントとRAG設定を簡単に統合できる。
第3に、厳密なデータモデリング設計により、実験再現性、信頼性、トレーサビリティが保証される。
最後に、ユーザーがパイプラインをカスタマイズするための包括的なツールスイートを実装している。
政府政策に関する4つの質問応答(QA)チャットボットにまたがる、挑戦的なベンチマークであるPocialBenchを開発し、そのOOKBロバスト性を分析することで、ノウノットの有用性を実証する。
knowornotのソースコードはhttps://github.com/govtech-responsibleai/KnowOrNot.comで入手できる。
関連論文リスト
- SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。
LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。
本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2025-07-18T12:28:08Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Migrating Existing Container Workload to Kubernetes -- LLM Based Approach and Evaluation [0.0]
あるアプローチでは、開発者がマニフェストを生成するのを支援するために、大きな言語モデル(LLM)を採用している。
現在、出力が与えられた仕様を満たし、理解可能であるかどうかを決定することは不可能である。
論文 参考訳(メタデータ) (2024-08-21T08:37:10Z) - RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。
我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2024-06-24T17:08:17Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models [46.07900122810749]
大規模言語モデル(LLM)は、様々なアプリケーションで前例のない性能を達成したが、評価は依然として難しい。
既存のリレーショナルデータベースを利用することは、ベンチマークを構築する上で有望なアプローチである、と我々は主張する。
我々は,これらの整合性制約を用いて任意のデータベースをLLMベンチマークに変換するERBenchを提案する。
論文 参考訳(メタデータ) (2024-03-08T12:42:36Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。