論文の概要: Grounded in Context: Retrieval-Based Method for Hallucination Detection
- arxiv url: http://arxiv.org/abs/2504.15771v1
- Date: Tue, 22 Apr 2025 10:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:59:51.211659
- Title: Grounded in Context: Retrieval-Based Method for Hallucination Detection
- Title(参考訳): 文脈の接地:検索に基づく幻覚検出法
- Authors: Assaf Gerner, Netta Madvil, Nadav Barak, Alex Zaikman, Jonatan Liberman, Liron Hamra, Rotem Brazilay, Shay Tsadok, Yaron Friedman, Neal Harow, Noam Bresler, Shir Chorev, Philip Tannor,
- Abstract要約: 本稿では,Deepchecksの幻覚検出フレームワークであるGrounded in Contextを提案する。
RAGアーキテクチャにインスパイアされた本手法は,検索モデルと自然言語推論(NLI)モデルを統合し,事実整合性を予測する。
本フレームワークは,RAGTruthの応答レベル分類タスクにおいて,F1スコア0.83の支持クレームを識別する。
- 参考スコア(独自算出の注目度): 2.0483545062606976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in grounded content generation, production Large Language Models (LLMs) based applications still suffer from hallucinated answers. We present "Grounded in Context" - Deepchecks' hallucination detection framework, designed for production-scale long-context data and tailored to diverse use cases, including summarization, data extraction, and RAG. Inspired by RAG architecture, our method integrates retrieval and Natural Language Inference (NLI) models to predict factual consistency between premises and hypotheses using an encoder-based model with only a 512-token context window. Our framework identifies unsupported claims with an F1 score of 0.83 in RAGTruth's response-level classification task, matching methods that trained on the dataset, and outperforming all comparable frameworks using similar-sized models.
- Abstract(参考訳): 基盤となるコンテンツ生成の進歩にもかかわらず、LLM(Large Language Models)ベースのアプリケーションはまだ幻覚的な回答に悩まされている。
本稿では,Deepchecks の幻覚検出フレームワーク "Grounded in Context" について述べる。
RAGアーキテクチャにインスパイアされた本手法は,検索と自然言語推論(NLI)モデルを統合し,512のコンテキストウィンドウのみを持つエンコーダモデルを用いて,前提と仮説の事実整合性を予測する。
我々のフレームワークは、RAGTruthのレスポンスレベル分類タスクにおけるF1スコアの0.83、データセットでトレーニングされたマッチングメソッド、および同様のサイズのモデルを使用して、同等のフレームワークすべてに比較して、サポート対象のクレームを特定します。
関連論文リスト
- RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance [28.63893944806149]
Retrieval-augmented Generation (RAG)は、外部知識を用いて、応答生成をガイドし、幻覚を減らすことで、大きな言語モデルを改善する。
RAGは新しい幻覚源を導入することができる: (i) 検索プロセスはデータベースから無関係な部分を生のコンテキストとして選択でき、 (ii) 検索された画像はテキストベースのコンテキストに処理される。
i)関連度スコア(RS)、検索項目の関連性の評価、(ii)正しさスコア(CS)、生成した応答の正確性の評価の2つのパフォーマンス尺度を用いてマルチモーダルRAGの信頼性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-07T18:52:05Z) - RARe: Retrieval Augmented Retrieval with In-Context Examples [40.963703726988946]
本稿では,検索者がコンテキスト内例を利用できるためのシンプルなアプローチを提案する。
RAREは、クエリがターゲットクエリとセマンティックに類似しているコンテキスト内の例で事前訓練されたモデルを微調整する。
RAReは、コンテキスト内例のないクエリを用いたモデルと比較して、ドメイン外一般化がより強力であることがわかった。
論文 参考訳(メタデータ) (2024-10-26T05:46:20Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction [25.59133746149343]
オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:39:13Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Coarse-to-Fine Memory Matching for Joint Retrieval and Classification [0.7081604594416339]
共同検索と分類のための新しいエンドツーエンド言語モデルを提案する。
FEVERファクト検証データセットの標準ブラインドテストセットで評価する。
我々は、モデルを分析・制約するためのこの設定に、模範監査を拡張します。
論文 参考訳(メタデータ) (2020-11-29T05:06:03Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。