論文の概要: A Hybrid Approach to Information Retrieval and Answer Generation for Regulatory Texts
- arxiv url: http://arxiv.org/abs/2502.16767v1
- Date: Mon, 24 Feb 2025 01:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:21.722267
- Title: A Hybrid Approach to Information Retrieval and Answer Generation for Regulatory Texts
- Title(参考訳): 規則文に対する情報検索と回答生成へのハイブリッドアプローチ
- Authors: Jhon Rayo, Raul de la Rosa, Mario Garrido,
- Abstract要約: 本稿では,語彙検索と意味検索を組み合わせたハイブリッド情報検索システムを提案する。
このシステムは、微調整文変換モデルと従来のBM25アルゴリズムを統合し、意味的精度と語彙的カバレッジの両方を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Regulatory texts are inherently long and complex, presenting significant challenges for information retrieval systems in supporting regulatory officers with compliance tasks. This paper introduces a hybrid information retrieval system that combines lexical and semantic search techniques to extract relevant information from large regulatory corpora. The system integrates a fine-tuned sentence transformer model with the traditional BM25 algorithm to achieve both semantic precision and lexical coverage. To generate accurate and comprehensive responses, retrieved passages are synthesized using Large Language Models (LLMs) within a Retrieval Augmented Generation (RAG) framework. Experimental results demonstrate that the hybrid system significantly outperforms standalone lexical and semantic approaches, with notable improvements in Recall@10 and MAP@10. By openly sharing our fine-tuned model and methodology, we aim to advance the development of robust natural language processing tools for compliance-driven applications in regulatory domains.
- Abstract(参考訳): 規制テキストは本質的に長く複雑であり、コンプライアンスタスクの規制担当者を支援する上で、情報検索システムにとって重要な課題を提示している。
本稿では,語彙検索と意味検索を組み合わせて,大規模コーパスから関連情報を抽出するハイブリッド情報検索システムを提案する。
このシステムは、微調整文変換モデルと従来のBM25アルゴリズムを統合し、意味的精度と語彙的カバレッジの両方を達成する。
高精度で包括的な応答を生成するために、検索されたパスは、検索可能な拡張生成(RAG)フレームワーク内のLarge Language Models(LLM)を使用して合成される。
実験の結果、このハイブリッドシステムは、Recall@10とMAP@10の顕著な改善とともに、スタンドアロンの語彙的および意味的アプローチを著しく上回ることがわかった。
細調整されたモデルと方法論をオープンに共有することで、規制領域におけるコンプライアンス駆動アプリケーションのための堅牢な自然言語処理ツールの開発を進めることを目指しています。
関連論文リスト
- EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z) - Transparent NLP: Using RAG and LLM Alignment for Privacy Q&A [15.86510147965235]
一般データ保護規則では、正確な処理情報を明確でアクセスしやすいものにする必要がある。
本稿では,その義務を果たすためのアライメント技術によって強化された,最先端の検索生成システムについて検討する。
論文 参考訳(メタデータ) (2025-02-10T16:42:00Z) - Concept Navigation and Classification via Open Source Large Language Model Processing [0.0]
本稿では,オープンソースのLarge Language Models (LLMs) を用いたテキストデータから潜在構造を検出・分類するための新しい手法を提案する。
提案手法は,自動要約とループ内検証を組み合わせることで,構造同定の精度と解釈性を向上させる。
論文 参考訳(メタデータ) (2025-02-07T08:42:34Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - 1-800-SHARED-TASKS at RegNLP: Lexical Reranking of Semantic Retrieval (LeSeR) for Regulatory Question Answering [0.0]
本稿では,Cling 2025 RegNLP RIRAG (Regulatory Information Retrieval and Answer Generation) の課題について述べる。
我々は,規制領域における高度な情報検索と回答生成技術を活用している。
検索には、0.8201のリコール@10と0.6655のmap@10の新たなアプローチであるLeSeRを用いる。
論文 参考訳(メタデータ) (2024-12-08T17:53:43Z) - A Combined Encoder and Transformer Approach for Coherent and High-Quality Text Generation [5.930799903736776]
本研究は,BERTのセマンティック解釈強度とGPT-4の生成能力を組み合わせた新しいテキスト生成モデルを提案する。
このモデルはセマンティックディープを強化し、スムーズな人間のようなテキストフローを維持し、以前のモデルに見られる制限を克服する。
論文 参考訳(メタデータ) (2024-11-19T01:41:56Z) - An Adaptive Framework for Generating Systematic Explanatory Answer in Online Q&A Platforms [62.878616839799776]
質問応答(QA)性能を向上させるために設計された,革新的なフレームワークであるSynthRAGを提案する。
SynthRAGは動的コンテンツの構造化に適応的なアウトラインを用いることで従来のモデルを改善する。
Zhihuプラットフォーム上のオンラインデプロイメントでは、SynthRAGの回答が注目すべきユーザエンゲージメントを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T09:14:57Z) - HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications [2.527078412319764]
本稿ではハイブリッドについて紹介する。
アダプティブRAG(Adaptive RAG, HyPA-RAG)は、AIの法と政策に合わせたシステムである。
パラメータを動的に調整することにより、HyPA-RAGは検索精度と応答忠実度を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-29T16:11:20Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。