論文の概要: Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.00456v1
- Date: Sat, 1 Jun 2024 14:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:55:04.505896
- Title: Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation
- Title(参考訳): Mix-of-Granularity:Retrieval-Augmented Generationのためのチャンキング粒度最適化
- Authors: Zijie Zhong, Hanwen Liu, Xiaoya Cui, Xiaofan Zhang, Zengchang Qin,
- Abstract要約: ルータを用いた入力クエリに基づいて知識データベースの最適粒度を決定する手法であるMix-of-Granularity(MoG)を提案する。
我々はMoGをMix-of-Granularity-Graph(Mix-of-Granularity-Graph)に拡張し、参照文書をグラフに前処理することで、遠い位置にあるチャンクから関連情報を検索する。
- 参考スコア(独自算出の注目度): 7.071677694758966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating information from different reference data sources is a major challenge for Retrieval-Augmented Generation (RAG) systems because each knowledge source adopts a unique data structure and follows different conventions. Retrieving from multiple knowledge sources with one fixed strategy usually leads to under-exploitation of information. To mitigate this drawback, inspired by Mix-of-Expert, we introduce Mix-of-Granularity (MoG), a method that dynamically determines the optimal granularity of a knowledge database based on input queries using a router. The router is efficiently trained with a newly proposed loss function employing soft labels. We further extend MoG to Mix-of-Granularity-Graph (MoGG), where reference documents are pre-processed into graphs, enabling the retrieval of relevant information from distantly situated chunks. Extensive experiments demonstrate that both MoG and MoGG effectively predict optimal granularity levels, significantly enhancing the performance of the RAG system in downstream tasks. The code of both MoG and MoGG will be made public.
- Abstract(参考訳): 異なる参照データソースからの情報を統合することは、各知識ソースが独自のデータ構造を採用し、異なる規則に従うため、検索-拡張生成(RAG)システムにとって大きな課題である。
複数の知識ソースから1つの固定された戦略で取得することは、通常、情報の過小評価につながる。
この欠点を軽減するために、ルータを用いた入力クエリに基づいて知識データベースの最適粒度を動的に決定するMix-of-Granularity(MoG)を導入する。
ルータはソフトラベルを用いた新たな損失関数によって効率よく訓練される。
さらに、MoGをMix-of-Granularity-Graph (MoGG)に拡張し、参照文書をグラフに前処理し、遠隔のチャンクから関連情報を検索できるようにする。
大規模な実験により,MoGとMoGGの両者が最適粒度レベルを効果的に予測し,下流タスクにおけるRAGシステムの性能を著しく向上することが示された。
MoGとMoGGの両方のコードは公開されます。
関連論文リスト
- G-RAG: Knowledge Expansion in Material Science [0.0]
Graph RAGはグラフデータベースを統合して、検索プロセスを強化する。
文書のより詳細な表現を実現するために,エージェントベースの解析手法を実装した。
論文 参考訳(メタデータ) (2024-11-21T21:22:58Z) - RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する効果を証明している。
現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。
本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:53:29Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Context-Augmented Code Generation Using Programming Knowledge Graphs [0.0]
大きな言語モデル(LLM)とコード-LLM(CLLM)は、困難で複雑な問題に対処する際にしばしば困難に直面します。
本稿では,プログラミング知識グラフ(PKG)を利用して,コードの意味的表現と検索を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:35:41Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。
GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。
我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文 参考訳(メタデータ) (2024-09-23T21:42:47Z) - MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。
既存のRAGシステムは主に簡単な質問応答タスクに有効である。
本稿では,MemoRAGを提案する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文 参考訳(メタデータ) (2024-08-14T15:19:16Z) - RU-Net: Regularized Unrolling Network for Scene Graph Generation [92.95032610978511]
シーングラフ生成(SGG)は、オブジェクトを検出し、各オブジェクト間の関係を予測することを目的としている。
既存のSGG法は,(1)あいまいな対象表現,2)関係予測の多様性の低下など,いくつかの問題に悩まされることが多い。
両問題に対処する正規化アンローリングネットワーク(RU-Net)を提案する。
論文 参考訳(メタデータ) (2022-05-03T04:21:15Z) - DSKReG: Differentiable Sampling on Knowledge Graph for Recommendation
with Relational GNN [59.160401038969795]
我々は,GNN(DSKReG)を用いた推薦のための知識グラフの識別可能なサンプリングを提案する。
そこで本研究では,モデル学習手順と組み合わせて,関連する項目の選択を最適化する,識別可能なサンプリング戦略を考案する。
実験の結果,我々のモデルは最先端のKGベースのレコメンデータシステムよりも優れていた。
論文 参考訳(メタデータ) (2021-08-26T16:19:59Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。