論文の概要: RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues
- arxiv url: http://arxiv.org/abs/2409.12558v1
- Date: Thu, 19 Sep 2024 08:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:19:13.627137
- Title: RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues
- Title(参考訳): RAD-Bench: 検索拡張対話における大規模言語モデルの評価
- Authors: Tzu-Lin Kuo, Feng-Ting Liao, Mu-Wei Hsieh, Fu-Chieh Chang, Po-Chun Hsu, Da-Shan Shiu,
- Abstract要約: RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。
また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
- 参考スコア(独自算出の注目度): 8.036117602566074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world applications with Large Language Models (LLMs), external retrieval mechanisms - such as Search-Augmented Generation (SAG), tool utilization, and Retrieval-Augmented Generation (RAG) - are often employed to enhance the quality of augmented generations in dialogues. These approaches often come with multi-turn dialogue, where each interaction is enriched by relevant information retrieved from external sources. Existing benchmarks either assess LLMs' chat abilities in multi-turn dialogues or their use of retrieval for augmented responses in single-turn settings. However, there is a gap in evaluating LLMs' ability to leverage retrieval for more precise responses across multiple turns. To address this limitation, we introduce RAD-Bench (Retrieval Augmented Dialogue), a benchmark designed to evaluate LLMs' capabilities in multi-turn dialogues following retrievals, essential for their deployment in context-rich applications. RAD-Bench evaluates two key abilities of LLMs: Retrieval Synthesis and Retrieval Reasoning. These are measured using discriminative questions and retrieved contexts, and corresponding reference answers, assessing how effectively LLMs integrate and reason with context to maintain and enhance conversation quality over multiple turns. Our evaluation results on commonly used LLMs reveal that model performance deteriorates as additional layers of conditions or constraints are applied across conversation turns, even when accurate retrieved contexts are provided.
- Abstract(参考訳): LLM(Large Language Models)を用いた実世界のアプリケーションでは、検索・拡張生成(SAG)、ツール利用、検索・拡張生成(RAG)といった外部検索機構が、対話における拡張世代の品質を高めるためにしばしば使用される。
これらのアプローチは、しばしば、外部ソースから取得された関連する情報によって各インタラクションが豊かになるマルチターン対話が伴う。
既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。
しかし、複数回にわたるより正確な応答に対して、LLMが検索を活用できる能力を評価するにはギャップがある。
この制限に対処するために, RAD-Bench (Retrieval Augmented Dialogue) というベンチマークを導入する。
RAD-Benchは、検索合成と検索推論の2つの重要な能力を評価する。
これらは、識別的質問や検索されたコンテキスト、およびそれに対応する参照回答を用いて測定され、LLMがいかに効果的に統合され、コンテキストと推論することで、複数回にわたる会話品質の維持と向上を図るかを評価する。
提案手法を用いたLLMの性能評価の結果, 精度の高いコンテキストが提供されても, 会話のターン毎に追加の条件や制約が適用されるため, モデル性能は劣化することが明らかとなった。
関連論文リスト
- Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA [16.1357049130957]
シングルターンSELF-RAGフレームワークを構築し,会話設定のためのSELF-multi-RAGを提案する。
SELF-multi-RAGは、関連するパスの検索に関して、シングルターン変種よりも改善された機能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:05:12Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。