論文の概要: Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques
- arxiv url: http://arxiv.org/abs/2601.00891v1
- Date: Wed, 31 Dec 2025 13:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.828661
- Title: Enhancing Retrieval-Augmented Generation with Topic-Enriched Embeddings: A Hybrid Approach Integrating Traditional NLP Techniques
- Title(参考訳): Topic-Enriched Embeddingsを用いた検索拡張生成の強化:従来のNLP技術を統合したハイブリッドアプローチ
- Authors: Rodrigo Kataishi,
- Abstract要約: 本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。
項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、計算負担を軽減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems rely on accurate document retrieval to ground large language models (LLMs) in external knowledge, yet retrieval quality often degrades in corpora where topics overlap and thematic variation is high. This work proposes topic-enriched embeddings that integrate term-based signals and topic structure with contextual sentence embeddings. The approach combines TF-IDF with topic modeling and dimensionality reduction, using Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) to encode latent topical organization, and fuses these representations with a compact contextual encoder (all-MiniLM). By jointly capturing term-level and topic-level semantics, topic-enriched embeddings improve semantic clustering, increase retrieval precision, and reduce computational burden relative to purely contextual baselines. Experiments on a legal-text corpus show consistent gains in clustering coherence and retrieval metrics, suggesting that topic-enriched embeddings can serve as a practical component for more reliable knowledge-intensive RAG pipelines.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、外部の知識で大規模言語モデル(LLM)を構築するために、正確な文書検索に依存しているが、トピックの重複やテーマの変化が高いコーパスでは、検索品質が劣化することが多い。
本研究は,用語ベースの信号と話題構造を文脈文の埋め込みと統合したトピック強化埋め込みを提案する。
この手法は、TF-IDFとトピックモデリングと次元還元を組み合わせたもので、Latent Semantic Analysis (LSA) とLatent Dirichlet Allocation (LDA) を用いて潜在トピック組織を符号化し、これらの表現をコンパクトな文脈エンコーダ(All-MiniLM)で融合する。
項レベルのセマンティクスとトピックレベルのセマンティクスを併用することにより、トピックに富んだ埋め込みはセマンティクスクラスタリングを改善し、検索精度を高め、純粋にコンテキストベースラインに対する計算負担を軽減する。
法文コーパスの実験では、クラスタリングのコヒーレンスと検索のメトリクスが一貫した増加を示し、トピックに富んだ埋め込みが、より信頼性の高い知識集約型RAGパイプラインの実用的なコンポーネントとして機能することを示唆している。
関連論文リスト
- Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。
LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T15:12:58Z) - Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck [0.0]
幾何学的クラスタリングのための決定論的情報ボトルネック(DIB)に基づく基本的トピック識別手法を開発した。
我々の重要な貢献は、DIB法を計算効率の良い上界を持つ難解なKL発散項に代えて、高次元データのための実用的なアルゴリズムに変換することである。
論文 参考訳(メタデータ) (2025-08-26T20:00:51Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - Enhancing Retrieval Augmented Generation with Hierarchical Text Segmentation Chunking [0.9968037829925942]
本稿では階層的なテキストセグメンテーションとクラスタリングを統合してRAGを強化する新しいフレームワークを提案する。
推論中、このフレームワークはセグメントレベルのベクトル表現とクラスタレベルのベクトル表現の両方を活用することで情報を取得する。
ナラティブQA,Quality,QASPERデータセットの評価は,従来のチャンキング手法と比較して,提案手法が改善したことを示している。
論文 参考訳(メタデータ) (2025-07-14T05:21:58Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - HEAL: Hierarchical Embedding Alignment Loss for Improved Retrieval and Representation Learning [6.2751089721877955]
RAGは、外部文書検索を統合して、ドメイン固有のまたは最新の知識を提供することで、LLM(Large Language Models)を強化する。
RAGの有効性は、取得した文書の関連性に依存し、ドメインの専門コンテンツと埋め込みのセマンティックアライメントに影響される。
本稿では,階層的ファジィクラスタリングと行列分解を併用した新しい手法である階層的エンベディング・アライメント・ロス(HEAL)を紹介する。
論文 参考訳(メタデータ) (2024-12-05T23:10:56Z) - Contextual Categorization Enhancement through LLMs Latent-Space [0.31263095816232184]
本稿では,ウィキペディアデータセットのテキストから意味情報を抽出するトランスフォーマーモデルを提案する。
次に、これらのエンコーディングに基づいて異なるアプローチを検討し、カテゴリのセマンティックアイデンティティを評価し、拡張する。
論文 参考訳(メタデータ) (2024-04-25T09:20:51Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。