Fugu-MT 論文翻訳(概要): Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning

論文の概要: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning

arxiv url: http://arxiv.org/abs/2405.16933v1
Date: Mon, 27 May 2024 08:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 16:21:29.730400
Title: Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning
Title（参考訳）: 自己学習による知識検索インデックス作成のための大規模言語モデルの構築
Authors: Xun Liang, Simin Niu, Zhiyu li, Sensen Zhang, Shichao Song, Hanyu Wang, Jiawei Yang, Feiyu Xiong, Bo Tang, Chenyang Xi,
Abstract要約: Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。 PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。 PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
参考スコア（独自算出の注目度）: 17.83428132220955
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) offers a cost-effective approach to injecting real-time knowledge into large language models (LLMs). Nevertheless, constructing and validating high-quality knowledge repositories require considerable effort. We propose a pre-retrieval framework named Pseudo-Graph Retrieval-Augmented Generation (PG-RAG), which conceptualizes LLMs as students by providing them with abundant raw reading materials and encouraging them to engage in autonomous reading to record factual information in their own words. The resulting concise, well-organized mental indices are interconnected through common topics or complementary facts to form a pseudo-graph database. During the retrieval phase, PG-RAG mimics the human behavior in flipping through notes, identifying fact paths and subsequently exploring the related contexts. Adhering to the principle of the path taken by many is the best, it integrates highly corroborated fact paths to provide a structured and refined sub-graph assisting LLMs. We validated PG-RAG on three specialized question-answering datasets. In single-document tasks, PG-RAG significantly outperformed the current best baseline, KGP-LLaMA, across all key evaluation metrics, with an average overall performance improvement of 11.6%. Specifically, its BLEU score increased by approximately 14.3%, and the QE-F1 metric improved by 23.7%. In multi-document scenarios, the average metrics of PG-RAG were at least 2.35% higher than the best baseline. Notably, the BLEU score and QE-F1 metric showed stable improvements of around 7.55% and 12.75%, respectively. Our code: https://github.com/IAAR-Shanghai/PGRAG.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)にリアルタイム知識を注入するコスト効率の高いアプローチを提供する。それでも、高品質な知識リポジトリの構築と検証にはかなりの努力が必要である。 Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という名称の事前検索フレームワークを提案する。結果として得られた簡潔でよく組織された精神指標は、共通のトピックや補完的な事実を通して相互に関連付けられ、擬似グラフデータベースを形成する。 PG-RAGは、検索フェーズの間、ノートをめくって、事実のパスを特定し、その後関連するコンテキストを探索する人間の行動を模倣する。多くの人々が採った経路の原則に従うことが最善であり、高度に相関した事実経路を統合し、構造化され洗練された副グラフ補助LSMを提供する。 PG-RAGを3種類の質問応答データセットで検証した。単一ドキュメントタスクでは、PG-RAGは現在の最高のベースラインであるKGP-LLaMAを、すべての主要な評価指標で大幅に上回り、全体的なパフォーマンスは平均11.6%向上した。具体的には、BLEUのスコアは約14.3%増加し、QE-F1は23.7%改善した。複数文書のシナリオでは、PG-RAGの平均値が最良基準値よりも少なくとも2.35%高い。特に、BLEUのスコアとQE-F1は、それぞれ7.55%と12.75%の安定な改善を示した。コード:https://github.com/IAAR-Shanghai/PGRAG。

関連論文リスト

A Query-Aware Multi-Path Knowledge Graph Fusion Approach for Enhancing Retrieval-Augmented Generation in Large Language Models [3.0748861313823]
QMKGFはクエリ対応マルチパス知識グラフフュージョンアプローチであり、検索拡張生成を促進する。我々はプロンプトテンプレートを設計し、汎用LLMを用いてエンティティや関係を抽出する。本稿では, ワンホップ関係, マルチホップ関係, 重要度に基づく関係を組み込んだマルチパスサブグラフ構築戦略を提案する。
論文参考訳（メタデータ） (2025-07-07T02:22:54Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [53.18163869901266]
ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。 ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-06-02T13:19:09Z)
A RAG-Based Institutional Assistant [0.1499944454332829]
我々は,サンパウロ大学に特化されたRAGベースの仮想アシスタントの設計と評価を行った。最適レトリバーモデルではトップ5の精度が30%,最も有効な生成モデルでは22.04%,真理回答では22.04%のスコアが得られた。
論文参考訳（メタデータ） (2025-01-23T17:54:19Z)
Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。 3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。 MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文参考訳（メタデータ） (2025-01-08T22:16:40Z)
KG-CF: Knowledge Graph Completion with Context Filtering under the Guidance of Large Language Models [55.39134076436266]
KG-CFはランキングベースの知識グラフ補完タスクに適したフレームワークである。 KG-CFは、LLMの推論能力を活用して、無関係なコンテキストをフィルタリングし、現実世界のデータセットで優れた結果を得る。
論文参考訳（メタデータ） (2025-01-06T01:52:15Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文参考訳（メタデータ） (2024-10-28T04:39:32Z)
Paths-over-Graph: Knowledge Graph Empowered Large Language Model Reasoning [19.442426875488675]
我々は,KGから知識推論経路を統合することで,Large Language Models(LLM)推論を強化する新しい手法であるPaths-over-Graph(PoG)を提案する。 PoGは3段階の動的マルチホップパス探索を通じて、マルチホップとマルチエンタリティの問題に取り組む。実験では、GPT-3.5-TurboのPoGは、GPT-4のToGを最大23.9%上回った。
論文参考訳（メタデータ） (2024-10-18T06:57:19Z)
GS-KGC: A Generative Subgraph-based Framework for Knowledge Graph Completion with Large Language Models [7.995716933782121]
我々は textbfGenerative textbfSubgraph-based KGC (GS-KGC) と呼ばれる新しい補完フレームワークを提案する。このフレームワークは、主に負と隣人を生成するように設計された部分グラフ分割アルゴリズムを含んでいる。 4つの共通のKGCデータセットで実施された実験は、提案されたGS-KGCの利点を強調している。
論文参考訳（メタデータ） (2024-08-20T13:13:41Z)
KG-FIT: Knowledge Graph Fine-Tuning Upon Open-World Knowledge [63.19837262782962]
知識グラフ埋め込み(KGE)技術は、知識グラフ内の実体と関係のコンパクトな表現を学習するために重要である。本研究では、エンティティクラスタのセマンティックコヒーレントな階層構造を構築するKG-FITを紹介する。ベンチマークデータセットFB15K-237、YAGO3-10、PrimeKGの実験は、最先端の訓練済み言語モデルに基づく手法よりもKG-FITの方が優れていることを示した。
論文参考訳（メタデータ） (2024-05-26T03:04:26Z)
Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking [2.5238707656136694]
マルチモーダル検索・ランキング(GCL)のための一般化コントラスト学習を提案する。 GCLは、バイナリ関連スコアを超えて、きめ細かいランキングから学ぶように設計されている。以上の結果から,GCLはドメイン内NDCG@10が94.5%,コールドスタート評価が26.3～48.8%増加した。
論文参考訳（メタデータ） (2024-04-12T15:30:03Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Sequencing Matters: A Generate-Retrieve-Generate Model for Building Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文参考訳（メタデータ） (2023-11-16T02:37:58Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
KGE-CL: Contrastive Learning of Knowledge Graph Embeddings [64.67579344758214]
本稿では,知識グラフ埋め込みのための簡易かつ効率的な学習フレームワークを提案する。これは、関連するエンティティと異なる三重項におけるエンティティ-リレーションのカップルのセマンティック距離を短縮することができる。 WN18RRデータセットで51.2% MRR、46.8% Hits@1、59.1% MRR、51.8% Hits@1、YAGO3-10データセットで達成できる。
論文参考訳（メタデータ） (2021-12-09T12:45:33Z)
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文参考訳（メタデータ） (2021-09-21T10:43:42Z)
Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文参考訳（メタデータ） (2020-07-16T16:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。