Fugu-MT 論文翻訳(概要): Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue

論文の概要: Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue

arxiv url: http://arxiv.org/abs/2406.06399v1
Date: Mon, 10 Jun 2024 15:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 13:18:57.717201
Title: Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue
Title（参考訳）: 微調整かRAGか? : 対話にLLMを適応させる異なる手法の評価
Authors: Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi,
Abstract要約: 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。我々は,異なる対話型に適用する場合に,異なるLLM適応手法を広範囲に分析する。
参考スコア（独自算出の注目度）: 1.8652965834931452
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study the limitations of Large Language Models (LLMs) for the task of response generation in human-machine dialogue. Several techniques have been proposed in the literature for different dialogue types (e.g., Open-Domain). However, the evaluations of these techniques have been limited in terms of base LLMs, dialogue types and evaluation metrics. In this work, we extensively analyze different LLM adaptation techniques when applied to different dialogue types. We have selected two base LLMs, Llama-2 and Mistral, and four dialogue types Open-Domain, Knowledge-Grounded, Task-Oriented, and Question Answering. We evaluate the performance of in-context learning and fine-tuning techniques across datasets selected for each dialogue type. We assess the impact of incorporating external knowledge to ground the generation in both scenarios of Retrieval-Augmented Generation (RAG) and gold knowledge. We adopt consistent evaluation and explainability criteria for automatic metrics and human evaluation protocols. Our analysis shows that there is no universal best-technique for adapting large language models as the efficacy of each technique depends on both the base LLM and the specific type of dialogue. Last but not least, the assessment of the best adaptation technique should include human evaluation to avoid false expectations and outcomes derived from automatic metrics.
Abstract（参考訳）: 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。異なる対話型(例えば、Open-Domain)の文献では、いくつかの技術が提案されている。しかし, これらの手法の評価は, 基本LLM, 対話型, 評価指標の点で制限されている。本研究では,異なる対話型に適用した場合のLLM適応手法を広範囲に解析する。 Llama-2とMistralの2つの基本LLMと、Open-Domain, Knowledge-Grounded, Task-Oriented, Question Answeringの4つの対話タイプを選択した。対話型毎に選択されたデータセット間での文脈内学習と微調整技術の性能を評価する。我々は、検索・拡張世代(RAG)と金知識の両方のシナリオにおいて、外部知識を取り入れて生成を基盤とする影響を評価する。我々は,自動測定と人的評価プロトコルに対して,一貫した評価基準と説明可能性基準を採用する。解析の結果,各手法の有効性は基本LPMと特定の対話形式に依存するため,大規模言語モデルに適用するための普遍的なベストプラクティスは存在しないことがわかった。最後に、最も優れた適応手法の評価には、自動メトリクスから得られる誤った期待と結果を避けるために、人間の評価を含めるべきである。

関連論文リスト

MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators [8.672875654352689]
本稿では,対話評価ベンチマークの生成,評価,キュレートを行う自動マルチエージェントフレームワークであるMEDALを紹介する。シードコンテキストの異なるユーザ-チャットボットの多言語対話を生成する。次に、強いLLMを用いてチャットボットの性能を多次元的に解析し、顕著な言語間性能差を明らかにする。その後、いくつかの推論と非推論 LLM がオープンドメイン対話の評価器として機能する能力を評価するためにベンチマークが使用される。
論文参考訳（メタデータ） (2025-05-28T18:45:42Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文参考訳（メタデータ） (2024-05-24T20:32:49Z)
A Comprehensive Analysis of the Effectiveness of Large Language Models as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文参考訳（メタデータ） (2023-12-24T04:50:57Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
JoTR: A Joint Transformer and Reinforcement Learning Framework for Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文参考訳（メタデータ） (2023-09-01T03:19:53Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文参考訳（メタデータ） (2023-05-23T05:57:09Z)
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。 GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文参考訳（メタデータ） (2022-06-22T18:19:32Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Modelling Hierarchical Structure between Dialogue Policy and Natural Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。 RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文参考訳（メタデータ） (2020-06-11T20:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。