Fugu-MT 論文翻訳(概要): Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

論文の概要: Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation

arxiv url: http://arxiv.org/abs/2405.13622v1
Date: Wed, 22 May 2024 13:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:04:43.815037
Title: Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation
Title（参考訳）: タスク特異的エクストリーム生成を用いた検索言語モデルの自動評価
Authors: Gauthier Guinet, Behrooz Omidvar-Tehrani, Anoop Deoras, Laurent Callot,
Abstract要約: 検索型大規模言語モデル(RAG)のタスク固有精度を計測する新しい手法を提案する。複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。
参考スコア（独自算出の注目度）: 9.390902237835457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new method to measure the task-specific accuracy of Retrieval-Augmented Large Language Models (RAG). Evaluation is performed by scoring the RAG on an automatically-generated synthetic exam composed of multiple choice questions based on the corpus of documents associated with the task. Our method is an automated, cost-efficient, interpretable, and robust strategy to select the optimal components for a RAG system. We leverage Item Response Theory (IRT) to estimate the quality of an exam and its informativeness on task-specific accuracy. IRT also provides a natural way to iteratively improve the exam by eliminating the exam questions that are not sufficiently informative about a model's ability. We demonstrate our approach on four new open-ended Question-Answering tasks based on Arxiv abstracts, StackExchange questions, AWS DevOps troubleshooting guides, and SEC filings. In addition, our experiments reveal more general insights into factors impacting RAG performance like size, retrieval mechanism, prompting and fine-tuning. Most notably, our findings show that choosing the right retrieval algorithms often leads to bigger performance gains than simply using a larger language model.
Abstract（参考訳）: 本稿では,RAG(Retrieval-Augmented Large Language Models)のタスク固有精度を測定するための新しい手法を提案する。タスクに関連する文書のコーパスに基づいて複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。提案手法は,RAGシステムに最適なコンポーネントを選択するための,自動化,費用効率,解釈,堅牢な戦略である。項目応答理論(IRT)を応用して,試験の質とタスク固有の正確性に対する情報提供度を推定する。 IRTはまた、モデルの能力について十分な情報を持たない試験質問を排除し、試験を反復的に改善する自然な方法を提供する。私たちは、Arxivの抽象化、StackExchangeの質問、AWS DevOpsのトラブルシューティングガイド、SECの提出に基づく4つの新しいオープンエンド質問回答タスクに対して、アプローチを実演しています。さらに,本実験では,RAGの性能に影響を及ぼす要因,例えばサイズ,検索機構,プロンプト,微調整など,より一般的な知見を明らかにした。最も注目すべきは、適切な検索アルゴリズムを選択することは、単により大きな言語モデルを使用するよりも、より大きなパフォーマンス向上をもたらすことである。

関連論文リスト

LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文参考訳（メタデータ） (2025-03-06T05:25:43Z)
Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines [17.803396998387665]
Retrieval-augmented Generation (RAG)は、知識集約型視覚質問応答(VQA)タスクに対処するために登場した。本稿では,知識に基づくVQAタスクに対する従来のRAGモデルの代替としてReAuSEを提案する。我々のモデルは生成型検索器と正確な回答生成器の両方として機能する。
論文参考訳（メタデータ） (2025-02-23T16:39:39Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T21:14:04Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。 BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文参考訳（メタデータ） (2024-10-16T01:57:56Z)
Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文参考訳（メタデータ） (2024-10-11T14:03:29Z)
Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。既存のアクティブ検索手法は2つの課題に直面している。彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文参考訳（メタデータ） (2024-06-18T12:09:02Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文参考訳（メタデータ） (2024-03-14T02:26:31Z)
Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation [3.948068081583197]
本稿では,テキスト質問応答(TQA)における領域外シナリオを扱う手法を提案する。 LLMモデルLlama-2の微調整とRAGの導入により、我々のアーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現している。
論文参考訳（メタデータ） (2024-02-05T11:58:56Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Reinforcement Learning Guided Multi-Objective Exam Paper Generation [21.945655389912112]
そこで本研究では,MOEPGと呼ばれる多目的文書生成フレームワークを提案する。難易度、試験スコアの配分、スキルカバレッジを含む3つの試験領域固有の目的を同時に最適化する。試験用紙生成シナリオの多重ジレンマにMOEPGが適用可能であることを示す。
論文参考訳（メタデータ） (2023-03-02T07:55:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。