論文の概要: Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms
- arxiv url: http://arxiv.org/abs/2512.05967v1
- Date: Fri, 05 Dec 2025 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.158893
- Title: Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms
- Title(参考訳): 学習プラットフォームのためのエンティティリンクによる検索機能強化
- Authors: Francesco Granata, Francesco Poggi, Misael Mongiovì,
- Abstract要約: 本研究では,Entity Linking から派生した実効信号を統合した拡張 RAG アーキテクチャを提案する。
セマンティックとエンティティベースの情報を組み合わせるための3つの再ランク戦略を実装している。ハイブリッドスコア重み付けモデル、相互ランクの融合、クロスエンコーダのリランカである。
その結果、ドメイン固有の文脈において、相互階数融合に基づくハイブリッドスキーマは、ベースラインとクロスエンコーダのアプローチの両方で著しく優れていた。
- 参考スコア(独自算出の注目度): 1.7842332554022695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) architectures are gaining significant attention for their ability to ground language generation in reliable knowledge sources. Despite their impressive effectiveness in many areas, RAG systems based solely on semantic similarity often fail to ensure factual accuracy in specialized domains, where terminological ambiguity can affect retrieval relevance. This study proposes an enhanced RAG architecture that integrates a factual signal derived from Entity Linking to improve the accuracy of educational question-answering systems in Italian. The system includes a Wikidata-based Entity Linking module and implements three re-ranking strategies to combine semantic and entity-based information: a hybrid score weighting model, reciprocal rank fusion, and a cross-encoder re-ranker. Experiments were conducted on two benchmarks: a custom academic dataset and the standard SQuAD-it dataset. Results show that, in domain-specific contexts, the hybrid schema based on reciprocal rank fusion significantly outperforms both the baseline and the cross-encoder approach, while the cross-encoder achieves the best results on the general-domain dataset. These findings confirm the presence of an effect of domain mismatch and highlight the importance of domain adaptation and hybrid ranking strategies to enhance factual precision and reliability in retrieval-augmented generation. They also demonstrate the potential of entity-aware RAG systems in educational environments, fostering adaptive and reliable AI-based tutoring tools.
- Abstract(参考訳): LLM(Large Language Models)の時代には、信頼性のある知識ソースで言語生成を行う能力において、Retrieval-Augmented Generation(RAG)アーキテクチャが注目されている。
多くの領域において顕著な効果があるにもかかわらず、意味的類似性のみに基づくRAGシステムは、用語的曖昧さが検索関連性に影響を与える特殊な領域において、事実的正確性を保証するのに失敗することが多い。
本研究では,イタリア語における教養質問応答システムの精度向上のために,Entity Linkingから導出される事実信号を統合したRAGアーキテクチャを提案する。
このシステムには、WikidataベースのEntity Linkingモジュールが含まれており、セマンティックとエンティティベースの情報を組み合わせた3つの再分類戦略(ハイブリッドスコア重み付けモデル、相互ランクの融合、クロスエンコーダのリランカ)が実装されている。
カスタム学術データセットと標準SQuAD-itデータセットの2つのベンチマークで実験が行われた。
その結果、ドメイン固有の文脈において、相互階数融合に基づくハイブリッドスキーマは、ベースラインとクロスエンコーダアプローチの両方を著しく上回り、クロスエンコーダは汎用ドメインデータセット上で最高の結果を得ることがわかった。
これらの結果から, ドメインミスマッチの存在が確認され, ドメイン適応の重要性と, 検索強化世代における実際の精度と信頼性を高めるためのハイブリットランキング戦略が強調された。
彼らはまた、教育環境におけるエンティティを意識したRAGシステムの可能性を示し、適応的で信頼性の高いAIベースの学習ツールを育む。
関連論文リスト
- CIEGAD: Cluster-Conditioned Interpolative and Extrapolative Framework for Geometry-Aware and Domain-Aligned Data Augmentation [10.159901538172575]
実践的なディープラーニングデプロイメントでは、データの不足とラベル分布の不均衡が、意味不明な領域につながることが多い。
幾何認識・領域対応データ拡張のためのクラスタ条件補間・外挿フレームワーク(CIEGAD)を提案する。
本研究では,CIEGADが実世界のデータ分布の周辺を効果的に拡張し,実世界のデータと実世界のデータとの高整合性を維持しつつ,意味的多様性も維持していることを示す。
論文 参考訳(メタデータ) (2025-12-11T00:32:37Z) - RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG [0.0]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)を実際に証明するための重要な手法である。
既存の評価フレームワークは多くの場合、ドメイン固有のニュアンスをキャプチャできないメトリクスに依存します。
本稿では,RAGalystについて紹介する。RAGalystは,ドメイン固有のRAGシステムの厳密な評価を目的とした,人力による自動エージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-06T16:22:52Z) - Domain-Specific Data Generation Framework for RAG Adaptation [58.20906914537952]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルの言語理解と推論能力と外部検索を組み合わせ、ドメイン基底応答を可能にする。
本稿では,様々なRAG適応手法に合わせて,ドメイン基底型質問応答コンテキスト(QAC)トリプルを生成するフレームワークであるRAGenを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:59:49Z) - SynthGenNet: a self-supervised approach for test-time generalization using synthetic multi-source domain mixing of street view images [8.23277995673829]
テスト時間領域の堅牢な一般化を実現するための自己教師型学生-教員アーキテクチャであるSynthGenNetを紹介する。
私たちのコントリビューションには、さまざまな合成ソースからラベル付きデータをブレンドする新しいClassMix++アルゴリズムが含まれています。
実世界のデータセット上で50%の平均区間-Over-Union(mIoU)値を達成することにより、私たちのモデルは最先端(単一ソースで参照)よりも優れています。
論文 参考訳(メタデータ) (2025-09-02T13:08:03Z) - SemRAG: Semantic Knowledge-Augmented RAG for Improved Question-Answering [2.4874078867686085]
SemRAGは、ドメイン固有の知識を効率的に統合する拡張Retrieval Augmented Generation(RAG)フレームワークである。
セマンティックチャンキングアルゴリズムを用いて、文の埋め込みからコサイン類似性に基づいて文書を分割し、セマンティックコヒーレンスを保存する。
検索した情報を知識グラフに構造化することにより、SemRAGはエンティティ間の関係をキャプチャし、検索精度とコンテキスト理解を改善する。
論文 参考訳(メタデータ) (2025-07-10T11:56:25Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。