論文の概要: Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs
- arxiv url: http://arxiv.org/abs/2408.05524v1
- Date: Sat, 10 Aug 2024 11:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:31:52.260828
- Title: Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs
- Title(参考訳): コンテキスト駆動インデックストリミング:ALMの精度を高めるためのデータ品質の視点
- Authors: Kexin Ma, Ruochun Jin, Xi Wang, Huan Chen, Jing Ren, Yuhua Tang,
- Abstract要約: データ品質の観点から、ALMの回答の精度を高めるために、コンテキスト駆動インデックストリミング(CDIT)フレームワークが提案されている。
CDITは、クエリコンテキストと矛盾する検索結果を効果的に識別し、破棄することができる。
実験は、挑戦的な質問応答タスクを実証する。
- 参考スコア(独自算出の注目度): 14.28480790810193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Large Language Models (RALMs) have made significant strides in enhancing the accuracy of generated responses.However, existing research often overlooks the data quality issues within retrieval results, often caused by inaccurate existing vector-distance-based retrieval methods.We propose to boost the precision of RALMs' answers from a data quality perspective through the Context-Driven Index Trimming (CDIT) framework, where Context Matching Dependencies (CMDs) are employed as logical data quality rules to capture and regulate the consistency between retrieved contexts.Based on the semantic comprehension capabilities of Large Language Models (LLMs), CDIT can effectively identify and discard retrieval results that are inconsistent with the query context and further modify indexes in the database, thereby improving answer quality.Experiments demonstrate on challenging question-answering tasks.Also, the flexibility of CDIT is verified through its compatibility with various language models and indexing methods, which offers a promising approach to bolster RALMs' data quality and retrieval precision jointly.
- Abstract(参考訳): Retrieval-Augmented Large Language Models (RALMs) は、生成した応答の精度を高めるために大きな努力をしてきたが、既存のベクトル距離に基づく検索手法が不正確な場合が多いため、検索結果におけるデータ品質の問題を見落としていることが多い。我々は、コンテキスト駆動型インデックストリミング(CDIT)フレームワークを通じて、ALMsの回答の精度を高めることを提案する。そこで、コンテキストマッチング依存度(CMDs)を論理データ品質規則として使用して、検索されたコンテキスト間の一貫性をキャプチャし、調整する。大言語モデル(LLMs)のセマンティック・コングリジョン能力に基づいて、CDITは、クエリと不整合性のある検索結果を効果的に識別し、削除することができる。
関連論文リスト
- Better RAG using Relevant Information Gain [1.5604249682593647]
大きな言語モデル(LLM)のメモリを拡張する一般的な方法は、検索拡張生成(RAG)である。
本稿では,検索結果の集合に対するクエリに関連する総情報の確率的尺度である,関連情報ゲインに基づく新しい単純な最適化指標を提案する。
RAGシステムの検索コンポーネントのドロップイン置換として使用すると、質問応答タスクにおける最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2024-07-16T18:09:21Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。
提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-04T12:43:23Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Predicting Question-Answering Performance of Large Language Models
through Semantic Consistency [5.857193811761703]
本研究では,大規模言語モデルの質問応答のセマンティック一貫性を評価するタスクに対処する。
事実質問のための高品質なパラフレーズ付きベンチマークデータセットを作成し、そのデータセットをコミュニティにリリースする。
実際のQA参照レスパフォーマンス予測のためのフレームワークを構築し,評価する。
論文 参考訳(メタデータ) (2023-11-02T11:27:21Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。