論文の概要: Retrieval-Augmented Generation Systems for Intellectual Property via Synthetic Multi-Angle Fine-tuning
- arxiv url: http://arxiv.org/abs/2506.00527v1
- Date: Sat, 31 May 2025 12:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.178603
- Title: Retrieval-Augmented Generation Systems for Intellectual Property via Synthetic Multi-Angle Fine-tuning
- Title(参考訳): 合成多角ファインチューニングによる知的財産の検索・拡張生成システム
- Authors: Runtao Ren, Jian Ma, Jianxi Luo,
- Abstract要約: 知的財産権(IP)分野の検索システムは、しばしば多様なユーザクエリに苦しむ。
マルチアングル質問生成と検索ファインチューニング法(MQG-RFM)を提案する。
MQG-RFMは、高速なクエリ生成と強い負のマイニングを組み合わせることで、コストのかかるインフラ変更を伴わずに、検索の堅牢性を高める。
- 参考スコア(独自算出の注目度): 2.4368308736427697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems in the Intellectual Property (IP) field often struggle with diverse user queries, including colloquial expressions, spelling errors, and ambiguous terminology, leading to inaccurate retrieval and suboptimal responses. To address this challenge, we propose Multi-Angle Question Generation and Retrieval Fine-Tuning Method (MQG-RFM), a novel framework that leverages large language models (LLMs) to simulate varied user inquiries and fine-tunes retrieval models to align semantically equivalent but linguistically diverse questions. Unlike complex architectural modifications, MQG-RFM adopts a lightweight Data-to-Tune paradigm, combining prompt-engineered query generation with hard negative mining to enhance retrieval robustness without costly infrastructure changes. Experimental results on a Taiwan patent Q&A dataset show 185.62% improvement in retrieval accuracy on the Patent Consultation dataset and 262.26% improvement on the Novel Patent Technology Report dataset, with 14.22% and 53.58% improvements in generation quality over the baselines, respectively. By bridging the gap between user intent and system comprehension through semantic-aware retrieval optimization, MQG-RFM offers a practical, scalable approach for rapid, cost-effective deployment among small and medium-sized agencies seeking reliable patent intelligence solutions. Additionally, our proposed method has already been adopted by ScholarMate, the largest professional research social networking platform in China, to support real-world development and deployment. A demo version of the instantiated is available at https://github.com/renruntao/patent_rag.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、知的財産権(IP)分野において、口語表現、スペルエラー、曖昧な用語を含む多様なユーザクエリに苦しむことが多く、不正確な検索と準最適応答をもたらす。
この課題に対処するために,大規模言語モデル(LLM)を利用した多角的質問生成・検索ファインタニング手法(MQG-RFM)を提案する。
複雑なアーキテクチャ変更とは異なり、MQG-RFMは軽量なData-to-Tuneパラダイムを採用し、高速なクエリ生成とハードネガティブマイニングを組み合わせることで、コストのかかるインフラ変更を伴わずにリカバリロバスト性を向上させる。
台湾特許Q&Aデータセットの実験結果は、特許コンサルテーションデータセットの取得精度が185.62%改善し、新規特許技術レポートデータセットの262.26%改善し、ベースラインよりも14.22%、世代品質が53.58%向上したことを示している。
MQG-RFMは,ユーザ意図とシステム理解のギャップをセマンティック・アウェアな検索最適化によって埋めることによって,信頼性の高い特許情報ソリューションを求める中小機関間で,迅速かつ費用対効果の高いデプロイメントを実現するための,実用的かつスケーラブルなアプローチを提供する。
さらに,提案手法は,中国最大の研究用ソーシャルネットワーキングプラットフォームであるScholarMateによって,実世界の開発と展開を支援するためにすでに採用されている。
インスタンス化のデモバージョンはhttps://github.com/renruntao/patent_rag.comで公開されている。
関連論文リスト
- CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
我々は,textbfMultitextbfModal textbfRAG(CoRe-MMRAG)のためのtextbfReconciliationを提案する。
CoRe-MMRAGはベースライン法よりも大幅に改善され、InfoSeekとEncyclopedic-VQAでそれぞれ5.6%と9.3%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルを強化するための強力なパラダイムとして登場した。
RAGは、検索品質、基底忠実度、パイプライン効率、ノイズや逆入力に対する堅牢性といった新しい課題を導入している。
本調査は、RAG研究における現在の知識を集約し、次世代の検索強化言語モデリングシステムの基礎となることを目的としている。
論文 参考訳(メタデータ) (2025-05-28T22:57:04Z) - Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases [0.0]
本稿では,Small Language Model(SLM)をベースとした,軽量な検索・拡張生成(RAG)とセマンティック・アウェアなデータ構造化の進歩を相乗化するシステムを提案する。
SLMを用いた構造化データ抽出にMiniRAGのセマンティック・アウェア・ヘテロジニアス・グラフインデックスとトポロジ・エンハンス・検索を統合し,従来の手法の限界に対処する。
実験結果は精度と効率性において優れた性能を示し、教師なし評価指標としてのセマンティックエントロピーの導入はモデルの不確実性に対する堅牢な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T03:28:03Z) - Chats-Grid: An Iterative Retrieval Q&A Optimization Scheme Leveraging Large Model and Retrieval Enhancement Generation in smart grid [1.8023821453241073]
本稿では,スマートグリッド環境向けに最適化された,反復検索に基づくQ&AフレームワークChats-Gridを提案する。
検索中,Best Matching 25(BM25)スパース検索とBAAI General Embedding(BGE)高密度検索を組み合わせて,膨大な異種データセットを効果的に処理する。
検索後、微調整された大きな言語モデルでは、関連性を評価し、無関係の結果をフィルタリングし、文脈精度に基づいて文書を並べ替える。
論文 参考訳(メタデータ) (2025-02-21T16:47:01Z) - FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering [11.73887020240588]
本稿では,多面的回答の生成において明確な論理を実現するために,新しいアウトライン強化ジェネレータを提案する。
そこで本研究では,2つの微細なRLHFフレームワークを念頭に設計したファクトリティ最適化手法を提案する。
特に,本手法をLlama2-7B-chatに適用する場合,導出モデルFoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクスで上回っている。
論文 参考訳(メタデータ) (2024-06-19T19:06:36Z) - Generative AI Agents with Large Language Model for Satellite Networks via a Mixture of Experts Transmission [74.10928850232717]
本稿では、モデル定式化のための生成人工知能(AI)エージェントを開発し、送信戦略の設計に専門家(MoE)の混合を適用した。
具体的には,大規模言語モデル(LLM)を活用して対話型モデリングパラダイムを構築する。
定式化問題の解法として, MoE-proximal Policy Optimization (PPO) アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-14T03:44:54Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。