論文の概要: Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue
- arxiv url: http://arxiv.org/abs/2406.06399v3
- Date: Sat, 3 Aug 2024 15:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:38:40.928754
- Title: Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue
- Title(参考訳): 微調整かRAGか? : 対話にLLMを適応させる異なる手法の評価
- Authors: Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi,
- Abstract要約: 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。
我々は,異なる対話型に適用する場合に,異なるLLM適応手法を広範囲に分析する。
- 参考スコア(独自算出の注目度): 1.8652965834931452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the limitations of Large Language Models (LLMs) for the task of response generation in human-machine dialogue. Several techniques have been proposed in the literature for different dialogue types (e.g., Open-Domain). However, the evaluations of these techniques have been limited in terms of base LLMs, dialogue types and evaluation metrics. In this work, we extensively analyze different LLM adaptation techniques when applied to different dialogue types. We have selected two base LLMs, Llama-2 and Mistral, and four dialogue types Open-Domain, Knowledge-Grounded, Task-Oriented, and Question Answering. We evaluate the performance of in-context learning and fine-tuning techniques across datasets selected for each dialogue type. We assess the impact of incorporating external knowledge to ground the generation in both scenarios of Retrieval-Augmented Generation (RAG) and gold knowledge. We adopt consistent evaluation and explainability criteria for automatic metrics and human evaluation protocols. Our analysis shows that there is no universal best-technique for adapting large language models as the efficacy of each technique depends on both the base LLM and the specific type of dialogue. Last but not least, the assessment of the best adaptation technique should include human evaluation to avoid false expectations and outcomes derived from automatic metrics.
- Abstract(参考訳): 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。
異なる対話型(例えば、Open-Domain)の文献では、いくつかの技術が提案されている。
しかし, これらの手法の評価は, 基本LLM, 対話型, 評価指標の点で制限されている。
本研究では,異なる対話型に適用した場合のLLM適応手法を広範囲に解析する。
Llama-2とMistralの2つの基本LLMと、Open-Domain, Knowledge-Grounded, Task-Oriented, Question Answeringの4つの対話タイプを選択した。
対話型毎に選択されたデータセット間での文脈内学習と微調整技術の性能を評価する。
我々は、検索・拡張世代(RAG)と金知識の両方のシナリオにおいて、外部知識を取り入れて生成を基盤とする影響を評価する。
我々は,自動測定と人的評価プロトコルに対して,一貫した評価基準と説明可能性基準を採用する。
解析の結果,各手法の有効性は基本LPMと特定の対話形式に依存するため,大規模言語モデルに適用するための普遍的なベストプラクティスは存在しないことがわかった。
最後に、最も優れた適応手法の評価には、自動メトリクスから得られる誤った期待と結果を避けるために、人間の評価を含めるべきである。
関連論文リスト
- Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。
単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。
各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文 参考訳(メタデータ) (2023-05-23T05:57:09Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。