Fugu-MT 論文翻訳(概要): FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

論文の概要: FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering

arxiv url: http://arxiv.org/abs/2406.13779v1
Date: Wed, 19 Jun 2024 19:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 18:35:22.095272
Title: FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering
Title（参考訳）: FoRAG: Web強化長文質問応答のためのファクタリティ最適化検索生成
Authors: Tianchi Cai, Zhiwen Tan, Xierui Song, Tao Sun, Jiyan Jiang, Yunqi Xu, Yinger Zhang, Jinjie Gu,
Abstract要約: 本稿では,多面的回答の生成において明確な論理を実現するために,新しいアウトライン強化ジェネレータを提案する。そこで本研究では,2つの微細なRLHFフレームワークを念頭に設計したファクトリティ最適化手法を提案する。特に,本手法をLlama2-7B-chatに適用する場合,導出モデルFoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクスで上回っている。
参考スコア（独自算出の注目度）: 11.73887020240588
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Retrieval Augmented Generation (RAG) has become prevalent in question-answering (QA) tasks due to its ability of utilizing search engine to enhance the quality of long-form question-answering (LFQA). Despite the emergence of various open source methods and web-enhanced commercial systems such as Bing Chat, two critical problems remain unsolved, i.e., the lack of factuality and clear logic in the generated long-form answers. In this paper, we remedy these issues via a systematic study on answer generation in web-enhanced LFQA. Specifically, we first propose a novel outline-enhanced generator to achieve clear logic in the generation of multifaceted answers and construct two datasets accordingly. Then we propose a factuality optimization method based on a carefully designed doubly fine-grained RLHF framework, which contains automatic evaluation and reward modeling in different levels of granularity. Our generic framework comprises conventional fine-grained RLHF methods as special cases. Extensive experiments verify the superiority of our proposed \textit{Factuality-optimized RAG (FoRAG)} method on both English and Chinese benchmarks. In particular, when applying our method to Llama2-7B-chat, the derived model FoRAG-L-7B outperforms WebGPT-175B in terms of three commonly used metrics (i.e., coherence, helpfulness, and factuality), while the number of parameters is much smaller (only 1/24 of that of WebGPT-175B). Our datasets and models are made publicly available for better reproducibility: https://huggingface.co/forag.
Abstract（参考訳）: Retrieval Augmented Generation (RAG) は,質問応答(QA)タスクにおいて,長文質問応答(LFQA)の質を高めるために検索エンジンを活用する能力によって普及している。 Bing Chatのような様々なオープンソース手法やWebで強化された商用システムの出現にもかかわらず、2つの重要な問題は未解決のままである。本稿では,Web を利用した LFQA における回答生成の体系的研究を通じて,これらの問題を修復する。具体的には、まず、多面的回答の生成において明確な論理を達成し、2つのデータセットを構築するために、新しいアウトライン強化ジェネレータを提案する。そこで本研究では,2段階の微粒化 RLHF フレームワークを念頭に設計したファクトリティ最適化手法を提案する。提案手法は, 従来のRLHF法を特殊な場合として用いた。英語と中国語のベンチマークで提案した「textit{Factuality-timized RAG (FoRAG) 法」の優位性を検証した。特に,本手法をLlama2-7B-chatに適用した場合,FoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクス(コヒーレンス,有用性,事実性)で上回り,パラメータの数ははるかに少ない(WebGPT-175Bの1/24)。私たちのデータセットとモデルは、より良い再現性のために公開されています。

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
HIRAG: Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation [9.175609521889266]
我々は、新しいRAG命令微調整手法、階層型命令-調整型検索生成(HIRAG)を導入する。この方法は,多段階のプログレッシブ・チェーン・オブ・シントを利用して,モデルのオープンブック検査能力を向上させる。実験によると、HIRAGトレーニング戦略は、RGB、PopQA、MuSiQue、HotpotQA、PubmedQAといったデータセット上でのモデルのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-07-08T06:53:28Z)
ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。 RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文参考訳（メタデータ） (2025-05-27T07:34:41Z)
Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文参考訳（メタデータ） (2025-05-19T05:39:38Z)
FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction [25.00896070082754]
抽出読解システムは、与えられたテキスト内の質問に対する正しい答えを見つけるように設計されている。永続的な課題は、これらのモデルが、答えられないクエリを確実に認識しながら、質問に答える上で高い精度を維持することである。マルチエージェント協調フレームワークを基盤とした革新的なデータ拡張手法を提案する。
論文参考訳（メタデータ） (2025-04-08T01:45:16Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳（メタデータ） (2024-11-05T09:27:21Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Context-Augmented Code Generation Using Programming Knowledge Graphs [0.0]
大きな言語モデル(LLM)とコード-LLM(CLLM)は、困難で複雑な問題に対処する際にしばしば困難に直面します。本稿では,プログラミング知識グラフ(PKG)を利用して,コードの意味的表現と検索を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-09T16:35:41Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。 MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-09T13:20:31Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search [47.54163552754051]
コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。近年,大規模言語モデル (LLM) は自然言語の理解と生成において顕著な進歩を遂げている。本稿では,大規模言語モデルによって生成された高品質で多様な拡張データを利用する新しいアプローチChatDANCEを提案する。
論文参考訳（メタデータ） (2024-08-10T12:51:21Z)
AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation [37.456499537121886]
大規模言語モデルの最近の進歩はML/AI開発に変化をもたらした。大規模言語モデルの最近の進歩は、検索・拡張生成(RAG)システムにおけるAutoMLの原則を変革している。
論文参考訳（メタデータ） (2024-06-27T15:18:21Z)
DuetRAG: Collaborative Retrieval-Augmented Generation [57.440772556318926]
協調検索拡張生成フレームワークであるDuetRAGが提案されている。ブートストラップの哲学はドメインフィニングとRAGモデルを同時に統合することである。
論文参考訳（メタデータ） (2024-05-12T09:48:28Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。 LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文参考訳（メタデータ） (2024-02-05T11:58:56Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。