Fugu-MT 論文翻訳(概要): Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation

論文の概要: Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2406.00456v1
Date: Sat, 1 Jun 2024 14:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 06:55:04.505896
Title: Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation
Title（参考訳）: Mix-of-Granularity:Retrieval-Augmented Generationのためのチャンキング粒度最適化
Authors: Zijie Zhong, Hanwen Liu, Xiaoya Cui, Xiaofan Zhang, Zengchang Qin,
Abstract要約: ルータを用いた入力クエリに基づいて知識データベースの最適粒度を決定する手法であるMix-of-Granularity(MoG)を提案する。我々はMoGをMix-of-Granularity-Graph(Mix-of-Granularity-Graph)に拡張し、参照文書をグラフに前処理することで、遠い位置にあるチャンクから関連情報を検索する。
参考スコア（独自算出の注目度）: 7.071677694758966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Integrating information from different reference data sources is a major challenge for Retrieval-Augmented Generation (RAG) systems because each knowledge source adopts a unique data structure and follows different conventions. Retrieving from multiple knowledge sources with one fixed strategy usually leads to under-exploitation of information. To mitigate this drawback, inspired by Mix-of-Expert, we introduce Mix-of-Granularity (MoG), a method that dynamically determines the optimal granularity of a knowledge database based on input queries using a router. The router is efficiently trained with a newly proposed loss function employing soft labels. We further extend MoG to Mix-of-Granularity-Graph (MoGG), where reference documents are pre-processed into graphs, enabling the retrieval of relevant information from distantly situated chunks. Extensive experiments demonstrate that both MoG and MoGG effectively predict optimal granularity levels, significantly enhancing the performance of the RAG system in downstream tasks. The code of both MoG and MoGG will be made public.
Abstract（参考訳）: 異なる参照データソースからの情報を統合することは、各知識ソースが独自のデータ構造を採用し、異なる規則に従うため、検索-拡張生成(RAG)システムにとって大きな課題である。複数の知識ソースから1つの固定された戦略で取得することは、通常、情報の過小評価につながる。この欠点を軽減するために、ルータを用いた入力クエリに基づいて知識データベースの最適粒度を動的に決定するMix-of-Granularity(MoG)を導入する。ルータはソフトラベルを用いた新たな損失関数によって効率よく訓練される。さらに、MoGをMix-of-Granularity-Graph (MoGG)に拡張し、参照文書をグラフに前処理し、遠隔のチャンクから関連情報を検索できるようにする。大規模な実験により,MoGとMoGGの両者が最適粒度レベルを効果的に予測し,下流タスクにおけるRAGシステムの性能を著しく向上することが示された。 MoGとMoGGの両方のコードは公開されます。

関連論文リスト

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文参考訳（メタデータ） (2025-07-26T20:57:24Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。 Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文参考訳（メタデータ） (2025-05-22T05:15:27Z)
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation [23.060355911225923]
リランカは、生成品質と説明可能性を高めるために、検索した文書の精錬において重要な役割を果たす。本稿では,リランカが検索した文書の順序と数の両方を動的に調整する新しいRAGフレームワークであるDynamicRAGを提案する。
論文参考訳（メタデータ） (2025-05-12T05:19:01Z)
RAKG:Document-level Retrieval Augmented Knowledge Graph Construction [10.013667560362565]
本稿では,自動文書レベルの知識グラフ構築の課題に焦点をあてる。ドキュメントレベルの検索知識グラフ構築(RAKG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-14T02:47:23Z)
Knowledge Graph-Guided Retrieval Augmented Generation [34.83235788116369]
本稿では,知識グラフを用いた検索検索生成フレームワークを提案する。 KG$2$RAGは、チャンク間の事実レベルの関係を提供し、得られた結果の多様性と一貫性を改善する。
論文参考訳（メタデータ） (2025-02-08T02:14:31Z)
GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation [84.41557981816077]
本稿では,新しいグラフ基盤モデル (GFM) である GFM-RAG について紹介する。 GFM-RAGは、複雑なクエリ-知識関係をキャプチャするグラフ構造を理由とする、革新的なグラフニューラルネットワークによって実現されている。効率とニューラルスケーリング法則との整合性を維持しつつ、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-03T07:04:29Z)
SimGRAG: Leveraging Similar Subgraphs for Knowledge Graphs Driven Retrieval-Augmented Generation [6.568733377722896]
そこで我々はSimGRAG(Simisal Graph Enhanced Retrieval-Augmented Generation)法を提案する。クエリテキストとナレッジグラフの整合性という課題に効果的に対処する。 SimGRAGは、質問応答と事実検証において最先端のKG駆動RAG法より優れている。
論文参考訳（メタデータ） (2024-12-17T15:40:08Z)
G-RAG: Knowledge Expansion in Material Science [0.0]
Graph RAGはグラフデータベースを統合して、検索プロセスを強化する。文書のより詳細な表現を実現するために,エージェントベースの解析手法を実装した。
論文参考訳（メタデータ） (2024-11-21T21:22:58Z)
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards [78.74923079748521]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する効果を証明している。現在のアプローチでは、命令チューニングを使用してLLMを最適化し、検索した知識を活用する能力を改善している。本稿では,異なるRAGモジュール間でデータ嗜好を整列させることでRAGシステムを訓練するDDR法を提案する。
論文参考訳（メタデータ） (2024-10-17T12:53:29Z)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文参考訳（メタデータ） (2024-10-14T15:04:18Z)
Context-Augmented Code Generation Using Programming Knowledge Graphs [0.0]
大きな言語モデル(LLM)とコード-LLM(CLLM)は、困難で複雑な問題に対処する際にしばしば困難に直面します。本稿では,プログラミング知識グラフ(PKG)を利用して,コードの意味的表現と検索を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-09T16:35:41Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
GEM-RAG: Graphical Eigen Memories For Retrieval Augmented Generation [3.2027710059627545]
検索拡張生成のためのグラフィカル固有メモリ(GEM-RAG)について紹介する。 GEM-RAG は LLM が生成したユーティリティの質問を与えられたテキストコーパスにタグ付けすることで機能する。我々は,UnifiedQA と GPT-3.5 Turbo を LLM として,SBERT を用いた GEM-RAG と OpenAI のテキストエンコーダを2つの標準QA タスクで評価した。
論文参考訳（メタデータ） (2024-09-23T21:42:47Z)
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery [24.38640001674072]
Retrieval-Augmented Generation (RAG)は、検索ツールを利用して外部データベースにアクセスする。既存のRAGシステムは主に簡単な質問応答タスクに有効である。本稿では,MemoRAGを提案する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文参考訳（メタデータ） (2024-08-14T15:19:16Z)
Exploring Incompatible Knowledge Transfer in Few-shot Image Generation [107.81232567861117]
少ないショット画像生成は、いくつかの参照サンプルを使用して、ターゲットドメインから多彩で高忠実な画像を生成することを学習する。既存のF SIGメソッドは、ソースジェネレータから事前の知識を選択し、保存し、転送し、ターゲットジェネレータを学習する。本稿では,知識保存を補完する操作であり,軽量プルーニング方式で実装した知識トランケーションを提案する。
論文参考訳（メタデータ） (2023-04-15T14:57:15Z)
RU-Net: Regularized Unrolling Network for Scene Graph Generation [92.95032610978511]
シーングラフ生成(SGG)は、オブジェクトを検出し、各オブジェクト間の関係を予測することを目的としている。既存のSGG法は,(1)あいまいな対象表現,2)関係予測の多様性の低下など,いくつかの問題に悩まされることが多い。両問題に対処する正規化アンローリングネットワーク(RU-Net)を提案する。
論文参考訳（メタデータ） (2022-05-03T04:21:15Z)
DSKReG: Differentiable Sampling on Knowledge Graph for Recommendation with Relational GNN [59.160401038969795]
我々は,GNN(DSKReG)を用いた推薦のための知識グラフの識別可能なサンプリングを提案する。そこで本研究では,モデル学習手順と組み合わせて,関連する項目の選択を最適化する,識別可能なサンプリング戦略を考案する。実験の結果,我々のモデルは最先端のKGベースのレコメンデータシステムよりも優れていた。
論文参考訳（メタデータ） (2021-08-26T16:19:59Z)
Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。本研究では,より現実的で実践的な半教師付き領域一般化について検討する。提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文参考訳（メタデータ） (2021-06-01T16:00:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。