Fugu-MT 論文翻訳(概要): Enhancing RAG with Active Learning on Conversation Records: Reject Incapables and Answer Capables

論文の概要: Enhancing RAG with Active Learning on Conversation Records: Reject Incapables and Answer Capables

arxiv url: http://arxiv.org/abs/2502.09073v1
Date: Thu, 13 Feb 2025 08:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.163535
Title: Enhancing RAG with Active Learning on Conversation Records: Reject Incapables and Answer Capables
Title（参考訳）: 会話記録におけるアクティブラーニングによるRAGの強化:非可読性と解答能力の排除
Authors: Xuzhao Geng, Haozhao Wang, Jun Wang, Wei Liu, Ruixuan Li,
Abstract要約: Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)における外部知識の活用と幻覚の低減のための重要な手法である。本稿では,LLMを用いた多種多様な会話を用いて高品質なデータセットを構築することを提案する。本稿では、アクティブラーニングを用いて、アノテーションに最も適した会話サンプルを選択するAL4RAGを紹介する。
参考スコア（独自算出の注目度）: 17.76687504479359
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented generation (RAG) is a key technique for leveraging external knowledge and reducing hallucinations in large language models (LLMs). However, RAG still struggles to fully prevent hallucinated responses. To address this, it is essential to identify samples prone to hallucination or guide LLMs toward correct responses, which experts then annotate to develop high-quality datasets for refining LLMs. However, the growing scarcity of such datasets makes their creation challenging. This paper proposes using the vast amount of conversations from widespread LLM usage to build these datasets, training LLMs to avoid hallucination-prone questions while accurately responding to manageable ones. Given the impracticality of expert-annotating all conversation records, the paper introduces AL4RAG, which uses active learning to select the most suitable conversation samples for annotation, optimizing performance within an annotation budget. Additionally, recognizing that traditional active learning methods are not fully compatible with RAG due to unsuitable distance metrics, we develop a novel sample distance measurement for RAG active learning. Extensive experiments show that our method consistently outperforms baselines across multiple metrics.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における外部知識の活用と幻覚の低減のための重要な手法である。しかし、RAGは幻覚反応を完全に防ぐのに苦戦している。これに対処するためには、幻覚やLSMを正しい反応に導く傾向にあるサンプルを同定することが不可欠であり、専門家はLSMを精製するための高品質なデータセットを開発するようアノテートする。しかし、そのようなデータセットが不足しているため、作成は困難である。本稿では,これらのデータセットの構築に広範に行われているLLMの会話を多用し,管理可能なものに対して正確に応答しながら,幻覚を招きかねない質問を避けるためにLLMを訓練することを提案する。専門家によるすべての会話記録の注釈付けの非現実性を考慮して,本論文では,アクティブラーニングを用いて,アノテーションに最適な会話サンプルを選択し,アノテーション予算内での性能を最適化するAL4RAGを提案する。さらに,従来のアクティブラーニング手法がRAGと完全互換ではないことを認識し,RAGのアクティブラーニングのための新しいサンプル距離測定法を開発した。大規模な実験により,本手法は複数の指標をまたいだベースラインを一貫して上回ることがわかった。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement [22.386864304549285]
Retrieval-augmented Generation (RAG)は、関連するドキュメントを外部ソースから取得し、コンテキストに組み込むことで、大きな言語モデル(LLM)を強化する。文書をパラメトリックな知識に効率的に変換する軽量パラメータトランスレータモデルを活用する新しいフレームワークであるDynamic Parametric RAG(DyPRAG)を提案する。
論文参考訳（メタデータ） (2025-03-31T09:46:35Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
LLMの訓練は、訓練の段階において、馴染みのない知識を含むデータに基づいて、LLMを過度に信頼し、幻覚を奨励することができる。幻覚を減らすためのLLMの学習知識とよく一致した高品質なデータを識別する新しいフレームワークであるNOVAを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
Enhancing LLM's Ability to Generate More Repository-Aware Unit Tests Through Precise Contextual Information Injection [4.367526927436771]
プロンプトエンジニアリングによって導かれる大規模言語モデル(LLM)は、幅広いタスクを扱う能力に注目を集めている。 LLMは、プロジェクトのグローバルな文脈に対する認識の欠如により、焦点メソッドや関数の単体テストを生成する際に幻覚を示す可能性がある。我々は,レポジトリ対応の単体テストを生成するLLMの能力を向上するRATesterを提案する。
論文参考訳（メタデータ） (2025-01-13T15:43:36Z)
AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成するこれらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文参考訳（メタデータ） (2024-11-11T09:03:52Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Enhancing In-Context Learning with Answer Feedback for Multi-Span Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。 3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2023-06-07T15:20:24Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。