論文の概要: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning
- arxiv url: http://arxiv.org/abs/2405.16933v1
- Date: Mon, 27 May 2024 08:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:21:29.730400
- Title: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning
- Title(参考訳): 自己学習による知識検索インデックス作成のための大規模言語モデルの構築
- Authors: Xun Liang, Simin Niu, Zhiyu li, Sensen Zhang, Shichao Song, Hanyu Wang, Jiawei Yang, Feiyu Xiong, Bo Tang, Chenyang Xi,
- Abstract要約: Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。
PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。
PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
- 参考スコア(独自算出の注目度): 17.83428132220955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) offers a cost-effective approach to injecting real-time knowledge into large language models (LLMs). Nevertheless, constructing and validating high-quality knowledge repositories require considerable effort. We propose a pre-retrieval framework named Pseudo-Graph Retrieval-Augmented Generation (PG-RAG), which conceptualizes LLMs as students by providing them with abundant raw reading materials and encouraging them to engage in autonomous reading to record factual information in their own words. The resulting concise, well-organized mental indices are interconnected through common topics or complementary facts to form a pseudo-graph database. During the retrieval phase, PG-RAG mimics the human behavior in flipping through notes, identifying fact paths and subsequently exploring the related contexts. Adhering to the principle of the path taken by many is the best, it integrates highly corroborated fact paths to provide a structured and refined sub-graph assisting LLMs. We validated PG-RAG on three specialized question-answering datasets. In single-document tasks, PG-RAG significantly outperformed the current best baseline, KGP-LLaMA, across all key evaluation metrics, with an average overall performance improvement of 11.6%. Specifically, its BLEU score increased by approximately 14.3%, and the QE-F1 metric improved by 23.7%. In multi-document scenarios, the average metrics of PG-RAG were at least 2.35% higher than the best baseline. Notably, the BLEU score and QE-F1 metric showed stable improvements of around 7.55% and 12.75%, respectively. Our code: https://github.com/IAAR-Shanghai/PGRAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)にリアルタイム知識を注入するコスト効率の高いアプローチを提供する。
それでも、高品質な知識リポジトリの構築と検証にはかなりの努力が必要である。
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という名称の事前検索フレームワークを提案する。
結果として得られた簡潔でよく組織された精神指標は、共通のトピックや補完的な事実を通して相互に関連付けられ、擬似グラフデータベースを形成する。
PG-RAGは、検索フェーズの間、ノートをめくって、事実のパスを特定し、その後関連するコンテキストを探索する人間の行動を模倣する。
多くの人々が採った経路の原則に従うことが最善であり、高度に相関した事実経路を統合し、構造化され洗練された副グラフ補助LSMを提供する。
PG-RAGを3種類の質問応答データセットで検証した。
単一ドキュメントタスクでは、PG-RAGは現在の最高のベースラインであるKGP-LLaMAを、すべての主要な評価指標で大幅に上回り、全体的なパフォーマンスは平均11.6%向上した。
具体的には、BLEUのスコアは約14.3%増加し、QE-F1は23.7%改善した。
複数文書のシナリオでは、PG-RAGの平均値が最良基準値よりも少なくとも2.35%高い。
特に、BLEUのスコアとQE-F1は、それぞれ7.55%と12.75%の安定な改善を示した。
コード:https://github.com/IAAR-Shanghai/PGRAG。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Paths-over-Graph: Knowledge Graph Empowered Large Language Model Reasoning [19.442426875488675]
我々は,KGから知識推論経路を統合することで,Large Language Models(LLM)推論を強化する新しい手法であるPaths-over-Graph(PoG)を提案する。
PoGは3段階の動的マルチホップパス探索を通じて、マルチホップとマルチエンタリティの問題に取り組む。
実験では、GPT-3.5-TurboのPoGは、GPT-4のToGを最大23.9%上回った。
論文 参考訳(メタデータ) (2024-10-18T06:57:19Z) - KG-FIT: Knowledge Graph Fine-Tuning Upon Open-World Knowledge [63.19837262782962]
知識グラフ埋め込み(KGE)技術は、知識グラフ内の実体と関係のコンパクトな表現を学習するために重要である。
本研究では、エンティティクラスタのセマンティックコヒーレントな階層構造を構築するKG-FITを紹介する。
ベンチマークデータセットFB15K-237、YAGO3-10、PrimeKGの実験は、最先端の訓練済み言語モデルに基づく手法よりもKG-FITの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-05-26T03:04:26Z) - Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking [2.5238707656136694]
マルチモーダル検索・ランキング(GCL)のための一般化コントラスト学習を提案する。
GCLは、バイナリ関連スコアを超えて、きめ細かいランキングから学ぶように設計されている。
以上の結果から,GCLはドメイン内NDCG@10が94.5%,コールドスタート評価が26.3~48.8%増加した。
論文 参考訳(メタデータ) (2024-04-12T15:30:03Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - KGE-CL: Contrastive Learning of Knowledge Graph Embeddings [64.67579344758214]
本稿では,知識グラフ埋め込みのための簡易かつ効率的な学習フレームワークを提案する。
これは、関連するエンティティと異なる三重項におけるエンティティ-リレーションのカップルのセマンティック距離を短縮することができる。
WN18RRデータセットで51.2% MRR、46.8% Hits@1、59.1% MRR、51.8% Hits@1、YAGO3-10データセットで達成できる。
論文 参考訳(メタデータ) (2021-12-09T12:45:33Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。