論文の概要: Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs
- arxiv url: http://arxiv.org/abs/2408.05524v1
- Date: Sat, 10 Aug 2024 11:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-13 18:31:52.260828
- Title: Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs
- Title(参考訳): コンテキスト駆動インデックストリミング:ALMの精度を高めるためのデータ品質の視点
- Authors: Kexin Ma, Ruochun Jin, Xi Wang, Huan Chen, Jing Ren, Yuhua Tang,
- Abstract要約: データ品質の観点から、ALMの回答の精度を高めるために、コンテキスト駆動インデックストリミング(CDIT)フレームワークが提案されている。
CDITは、クエリコンテキストと矛盾する検索結果を効果的に識別し、破棄することができる。
実験は、挑戦的な質問応答タスクを実証する。
- 参考スコア(独自算出の注目度): 14.28480790810193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Large Language Models (RALMs) have made significant strides in enhancing the accuracy of generated responses.However, existing research often overlooks the data quality issues within retrieval results, often caused by inaccurate existing vector-distance-based retrieval methods.We propose to boost the precision of RALMs' answers from a data quality perspective through the Context-Driven Index Trimming (CDIT) framework, where Context Matching Dependencies (CMDs) are employed as logical data quality rules to capture and regulate the consistency between retrieved contexts.Based on the semantic comprehension capabilities of Large Language Models (LLMs), CDIT can effectively identify and discard retrieval results that are inconsistent with the query context and further modify indexes in the database, thereby improving answer quality.Experiments demonstrate on challenging question-answering tasks.Also, the flexibility of CDIT is verified through its compatibility with various language models and indexing methods, which offers a promising approach to bolster RALMs' data quality and retrieval precision jointly.
- Abstract(参考訳): Retrieval-Augmented Large Language Models (RALMs) は、生成した応答の精度を高めるために大きな努力をしてきたが、既存のベクトル距離に基づく検索手法が不正確な場合が多いため、検索結果におけるデータ品質の問題を見落としていることが多い。我々は、コンテキスト駆動型インデックストリミング(CDIT)フレームワークを通じて、ALMsの回答の精度を高めることを提案する。そこで、コンテキストマッチング依存度(CMDs)を論理データ品質規則として使用して、検索されたコンテキスト間の一貫性をキャプチャし、調整する。大言語モデル(LLMs)のセマンティック・コングリジョン能力に基づいて、CDITは、クエリと不整合性のある検索結果を効果的に識別し、削除することができる。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Influence Guided Context Selection for Effective Retrieval-Augmented Generation [23.188397777606095]
Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の幻覚に対処する。
既存のアプローチは、定義済みのコンテキスト品質評価指標に基づいて、コンテキスト選択によるパフォーマンスの向上を試みる。
我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
リストから各コンテキストを除去する際の性能劣化を測定することにより、コンテキスト品質を定量化する。
論文 参考訳(メタデータ) (2025-09-21T07:19:09Z) - Improving Context Fidelity via Native Retrieval-Augmented Reasoning [35.50952279309109]
大規模言語モデル(LLM)は、しばしば文脈の忠実さと闘い、提供された情報に基づいて質問に答えるときに矛盾する答えを生み出す。
提案するCAREは, LLMに対して, モデル独自の検索機能を用いて, 推論プロセス内での文脈内証拠を明示的に統合するように教える, 新たなネイティブ検索拡張推論フレームワークである。
提案手法では,限定ラベル付きエビデンスデータが必要であり,推論チェーン内の戦略的に検索されたインコンテキストトークンを通じて,検索精度と回答生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-17T04:28:07Z) - From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems [6.762635083456022]
RAGに基づくシステムにおいて,エンティティコアが文書検索と生成性能にどのように影響するかを検討する。
コア参照の解決により検索効率が向上し,質問応答性能(QA)が向上することが実証された。
本研究の目的は、知識集約型AIアプリケーションにおける検索と生成を改善するためのガイダンスを提供することである。
論文 参考訳(メタデータ) (2025-07-10T15:26:59Z) - Efficient Conformance Checking of Rich Data-Aware Declare Specifications (Extended) [49.46686813437884]
一般的なデータ型やデータ条件とリッチな設定で,データを考慮した最適アライメントを計算可能であることを示す。
これは、制御フローとデータ依存関係を扱うために、よく知られた2つのアプローチを慎重に組み合わせることで達成される。
論文 参考訳(メタデータ) (2025-06-30T10:16:21Z) - Federated In-Context Learning: Iterative Refinement for Improved Answer Quality [62.72381208029899]
In-context Learning (ICL) では、入力に提供される例を活用することで、パラメータを変更することなく、言語モデルで応答を生成することができる。
我々は,反復的協調プロセスを通じてICLを強化する汎用フレームワークであるFederated In-Context Learning (Fed-ICL)を提案する。
Fed-ICLは、クライアントと中央サーバ間のマルチラウンドインタラクションを活用することで、応答を徐々に洗練し、モデルパラメータを送信することなく、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-06-09T05:33:28Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases [0.0]
本稿では,Small Language Model(SLM)をベースとした,軽量な検索・拡張生成(RAG)とセマンティック・アウェアなデータ構造化の進歩を相乗化するシステムを提案する。
SLMを用いた構造化データ抽出にMiniRAGのセマンティック・アウェア・ヘテロジニアス・グラフインデックスとトポロジ・エンハンス・検索を統合し,従来の手法の限界に対処する。
実験結果は精度と効率性において優れた性能を示し、教師なし評価指標としてのセマンティックエントロピーの導入はモデルの不確実性に対する堅牢な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T03:28:03Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [97.72503890388866]
本稿では,選択的検索と知識の言語化を結合する新しいフレームワークであるSelf-Routing RAG(SR-RAG)を提案する。
SR-RAGは、LLMが外部検索と独自のパラメトリック知識の言語化を動的に決定できるようにする。
近接探索による動的知識源推定を導入し,知識源決定の精度を向上させる。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - Re-ranking the Context for Multimodal Retrieval Augmented Generation [28.63893944806149]
Retrieval-augmented Generation (RAG)は、文脈内で応答を生成するために外部知識を組み込むことで、大きな言語モデル(LLM)を強化する。
RAGシステムは固有の課題に直面している: (i) 検索プロセスはユーザクエリ(画像、文書など)への無関係なエントリを選択することができ、 (ii) 視覚言語モデルや GPT-4o のようなマルチモーダル言語モデルは、RAG出力を生成するためにこれらのエントリを処理する際に幻覚を与える。
より高度な関連性尺度を用いることで、知識ベースからより関連性の高い項目を選択して排除することにより、検索プロセスを強化することができることを示す。
論文 参考訳(メタデータ) (2025-01-08T18:58:22Z) - Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Enhancing Robustness of Retrieval-Augmented Language Models with In-Context Learning [5.053086684547045]
本研究では、ALMの推論能力を高めるために、文脈内学習に基づくアプローチを導入する。
我々のアプローチは、追加の微調整を必要とせずに、解決不可能なシナリオと矛盾するシナリオを特定する精度を高める。
論文 参考訳(メタデータ) (2024-08-08T12:42:43Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。
提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-04T12:43:23Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。