Fugu-MT 論文翻訳(概要): MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

論文の概要: MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues

arxiv url: http://arxiv.org/abs/2402.14762v3
Date: Tue, 05 Nov 2024 16:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.962678
Title: MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues
Title（参考訳）: MT-Bench-101:多言語対話における大規模言語モデル評価のための細粒度ベンチマーク
Authors: Ge Bai, Jie Liu, Xingyuan Bu, Yancheng He, Jiaheng Liu, Zhanhui Zhou, Zhuoran Lin, Wenbo Su, Tiezheng Ge, Bo Zheng, Wanli Ouyang,
Abstract要約: MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。 1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
参考スコア（独自算出の注目度）: 58.33076950775072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Large Language Models (LLMs) has drastically enhanced dialogue systems. However, comprehensively evaluating the dialogue abilities of LLMs remains a challenge. Previous benchmarks have primarily focused on single-turn dialogues or provided coarse-grained and incomplete assessments of multi-turn dialogues, overlooking the complexity and fine-grained nuances of real-life dialogues. To address this issue, we introduce MT-Bench-101, specifically designed to evaluate the fine-grained abilities of LLMs in multi-turn dialogues. By conducting a detailed analysis of real multi-turn dialogue data, we construct a three-tier hierarchical ability taxonomy comprising 4208 turns across 1388 multi-turn dialogues in 13 distinct tasks. We then evaluate 21 popular LLMs based on MT-Bench-101, conducting comprehensive analyses from both ability and task perspectives and observing differing trends in LLMs performance across dialogue turns within various tasks. Further analysis indicates that neither utilizing common alignment techniques nor chat-specific designs has led to obvious enhancements in the multi-turn abilities of LLMs. Extensive case studies suggest that our designed tasks accurately assess the corresponding multi-turn abilities. The data and code are available at \url{https://github.com/mtbench101/mt-bench-101}.
Abstract（参考訳）: LLM(Large Language Models)の出現は、対話システムを大幅に強化した。しかし,LLMの対話能力の総合評価は依然として課題である。以前のベンチマークでは、主にシングルターンダイアログや、多ターンダイアログの粗い粒度と不完全な評価に焦点を合わせており、実際の対話の複雑さときめ細かいニュアンスを見下ろしている。 MT-Bench-101は,マルチターン対話におけるLLMの微粒化能力の評価を目的としている。実マルチターン対話データを詳細に解析することにより,1388個のタスクで4208個のターンを含む3階層の階層的能力分類を構築した。次に,MT-Bench-101に基づく21のLLMの評価を行い,能力とタスクの両面から包括的分析を行い,様々なタスク内での対話におけるLLMのパフォーマンスの異なる傾向を観察する。さらに分析したところ、共通アライメント技術やチャット特有の設計は、LLMのマルチターン能力の明らかな向上につながっていないことが示唆された。広範囲にわたるケーススタディにより、設計したタスクが、対応するマルチターン能力を正確に評価できることが示唆された。データとコードは \url{https://github.com/mtbench101/mt-bench-101} で公開されている。

関連論文リスト

MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [49.12071445991853]
大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。 MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。 MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文参考訳（メタデータ） (2025-05-27T10:28:04Z)
An LLM Benchmark for Addressee Recognition in Multi-modal Multi-party Dialogue [21.938414385824903]
本論文は,次の順番に宛てられている相手を識別する,宛先認識の課題に焦点を当てる。コーパスのサブセットにアドレナリ情報が付加され、明示的なアドレナリが会話のターンの約20%で表示されることが明らかになった。
論文参考訳（メタデータ） (2025-01-28T02:27:55Z)
Can xLLMs Understand the Structure of Dialog? Exploring Multilingual Response Generation in Complex Scenarios [8.131774353504472]
マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。データセットの各サンプルには、社会、文化、政治、エンターテイメントなど、幅広いトピックを議論する少なくとも3人の参加者が含まれている。このような複雑な対話シナリオに適用した場合、LLMの従来認識されていた多言語機能に重大な制限が生じる。
論文参考訳（メタデータ） (2025-01-20T04:33:03Z)
FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs [8.37667737406383]
マルチターン対話シナリオである textbfFairMT-Bench における大規模言語モデル(LLM)ベースのチャットボットの公平性ベンチマークを提案する。多様なバイアスタイプや属性のカバレッジを確保するため,マルチターン対話データセットである texttFairMT-10K を構築した。 textttFairMT-10Kの実験と分析により、マルチターン対話シナリオでは、現在のLLMは偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
論文参考訳（メタデータ） (2024-10-25T06:06:31Z)
RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文参考訳（メタデータ） (2024-09-19T08:26:45Z)
DivTOD: Unleashing the Power of LLMs for Diversifying Task-Oriented Dialogue Representations [21.814490079113323]
汎用テキストで事前訓練された言語モデルは、様々な分野において印象的な成果を上げている。しかし、タスク指向対話(TOD)の言語的特徴と一般的なテキストとの比較は、既存の言語モデルの実用性を制限している。本研究では,多様なタスク指向の対話表現を学習するために,LLMと協調して対話事前学習モデルDivTODを提案する。
論文参考訳（メタデータ） (2024-03-31T04:36:57Z)
Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。 LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-13T09:32:12Z)
BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。 GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文参考訳（メタデータ） (2023-10-20T16:53:51Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。 LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文参考訳（メタデータ） (2023-05-23T02:49:35Z)
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-19T16:27:43Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。