論文の概要: MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2505.23810v1
- Date: Tue, 27 May 2025 10:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.525466
- Title: MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation
- Title(参考訳): MARS-Bench:対話評価のためのマルチターン運動実世界シナリオベンチマーク
- Authors: Chenghao Yang, Yinbo Luo, Zhoufutu Wen, Qi Chu, Tao Gong, Longxiang Liu, Kaiyuan Zhang, Jianpeng Jiao, Ge Zhang, Wenhao Huang, Nenghai Yu,
- Abstract要約: 大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。
MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。
MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
- 参考スコア(独自算出の注目度): 49.12071445991853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (\textbf{LLMs}), e.g. ChatGPT, have been widely adopted in real-world dialogue applications. However, LLMs' robustness, especially in handling long complex dialogue sessions, including frequent motivation transfer, sophisticated cross-turn dependency, is criticized all along. Nevertheless, no existing benchmarks can fully reflect these weaknesses. We present \textbf{MARS-Bench}, a \textbf{M}ulti-turn \textbf{A}thletic \textbf{R}eal-world \textbf{S}cenario Dialogue \textbf{Bench}mark, designed to remedy the gap. MARS-Bench is constructed from play-by-play text commentary so to feature realistic dialogues specifically designed to evaluate three critical aspects of multi-turn conversations: Ultra Multi-turn, Interactive Multi-turn, and Cross-turn Tasks. Extensive experiments on MARS-Bench also reveal that closed-source LLMs significantly outperform open-source alternatives, explicit reasoning significantly boosts LLMs' robustness on handling long complex dialogue sessions, and LLMs indeed face significant challenges when handling motivation transfer and sophisticated cross-turn dependency. Moreover, we provide mechanistic interpretability on how attention sinks due to special tokens lead to LLMs' performance degradation when handling long complex dialogue sessions based on attention visualization experiment in Qwen2.5-7B-Instruction.
- Abstract(参考訳): 大規模言語モデル (\textbf{LLMs})、例えばChatGPTは現実世界の対話アプリケーションで広く採用されている。
しかし、LLMの堅牢性、特に頻繁なモチベーション伝達、洗練されたクロスターン依存など、長い複雑な対話セッションを扱うことは、常に批判されている。
それでも、これらの弱点を完全に反映できる既存のベンチマークは存在しない。
本稿では、このギャップを緩和するために設計された、textbf{MARS-Bench}, a \textbf{M}ulti-turn \textbf{A}thletic \textbf{R}eal-world \textbf{S}cenario Dialogue \textbf{Bench}markを紹介する。
MARS-Benchは、プレイ・バイ・プレイのテキストコメンタリーから構築され、Ultra Multi-turn、Interactive Multi-turn、Cross-turn Tasksの3つの重要な側面を評価するために特別に設計されたリアルな対話を特徴付ける。
MARS-Benchでの大規模な実験では、クローズドソースのLLMはオープンソースの代替品よりも大幅に優れており、明示的な推論は長い複雑な対話セッションを扱うLLMの堅牢性を大幅に向上させる。
さらに,Qwen2.5-7B-Instructionにおける注意可視化実験に基づいて,長期にわたる対話セッションの処理において,特別なトークンによる注意シンクがLLMの性能低下につながるかの機械論的解釈性を提供する。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
外的検索機構は、しばしば対話における拡張世代の品質を高めるために使用される。
既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。
検索後のマルチターン対話におけるLLMの能力を評価するためのベンチマークであるRAD-Benchを紹介する。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。