論文の概要: MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues
- arxiv url: http://arxiv.org/abs/2402.14762v3
- Date: Tue, 05 Nov 2024 16:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:35.230349
- Title: MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues
- Title(参考訳): MT-Bench-101:多言語対話における大規模言語モデル評価のための細粒度ベンチマーク
- Authors: Ge Bai, Jie Liu, Xingyuan Bu, Yancheng He, Jiaheng Liu, Zhanhui Zhou, Zhuoran Lin, Wenbo Su, Tiezheng Ge, Bo Zheng, Wanli Ouyang,
- Abstract要約: MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
- 参考スコア(独自算出の注目度): 58.33076950775072
- License:
- Abstract: The advent of Large Language Models (LLMs) has drastically enhanced dialogue systems. However, comprehensively evaluating the dialogue abilities of LLMs remains a challenge. Previous benchmarks have primarily focused on single-turn dialogues or provided coarse-grained and incomplete assessments of multi-turn dialogues, overlooking the complexity and fine-grained nuances of real-life dialogues. To address this issue, we introduce MT-Bench-101, specifically designed to evaluate the fine-grained abilities of LLMs in multi-turn dialogues. By conducting a detailed analysis of real multi-turn dialogue data, we construct a three-tier hierarchical ability taxonomy comprising 4208 turns across 1388 multi-turn dialogues in 13 distinct tasks. We then evaluate 21 popular LLMs based on MT-Bench-101, conducting comprehensive analyses from both ability and task perspectives and observing differing trends in LLMs performance across dialogue turns within various tasks. Further analysis indicates that neither utilizing common alignment techniques nor chat-specific designs has led to obvious enhancements in the multi-turn abilities of LLMs. Extensive case studies suggest that our designed tasks accurately assess the corresponding multi-turn abilities. The data and code are available at \url{https://github.com/mtbench101/mt-bench-101}.
- Abstract(参考訳): LLM(Large Language Models)の出現は、対話システムを大幅に強化した。
しかし,LLMの対話能力の総合評価は依然として課題である。
以前のベンチマークでは、主にシングルターンダイアログや、多ターンダイアログの粗い粒度と不完全な評価に焦点を合わせており、実際の対話の複雑さときめ細かいニュアンスを見下ろしている。
MT-Bench-101は,マルチターン対話におけるLLMの微粒化能力の評価を目的としている。
実マルチターン対話データを詳細に解析することにより,1388個のタスクで4208個のターンを含む3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMの評価を行い,能力とタスクの両面から包括的分析を行い,様々なタスク内での対話におけるLLMのパフォーマンスの異なる傾向を観察する。
さらに分析したところ、共通アライメント技術やチャット特有の設計は、LLMのマルチターン能力の明らかな向上につながっていないことが示唆された。
広範囲にわたるケーススタディにより、設計したタスクが、対応するマルチターン能力を正確に評価できることが示唆された。
データとコードは \url{https://github.com/mtbench101/mt-bench-101} で公開されている。
関連論文リスト
- FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs [8.37667737406383]
マルチターン対話シナリオである textbfFairMT-Bench における大規模言語モデル(LLM)ベースのチャットボットの公平性ベンチマークを提案する。
多様なバイアスタイプや属性のカバレッジを確保するため,マルチターン対話データセットである texttFairMT-10K を構築した。
textttFairMT-10Kの実験と分析により、マルチターン対話シナリオでは、現在のLLMは偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
論文 参考訳(メタデータ) (2024-10-25T06:06:31Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。
また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - DivTOD: Unleashing the Power of LLMs for Diversifying Task-Oriented Dialogue Representations [21.814490079113323]
汎用テキストで事前訓練された言語モデルは、様々な分野において印象的な成果を上げている。
しかし、タスク指向対話(TOD)の言語的特徴と一般的なテキストとの比較は、既存の言語モデルの実用性を制限している。
本研究では,多様なタスク指向の対話表現を学習するために,LLMと協調して対話事前学習モデルDivTODを提案する。
論文 参考訳(メタデータ) (2024-03-31T04:36:57Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。