論文の概要: MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2505.17123v1
- Date: Wed, 21 May 2025 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.587034
- Title: MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation
- Title(参考訳): MTR-Bench:マルチスレッド推論評価のための総合ベンチマーク
- Authors: Xiaoyuan Li, Keqin Bao, Yubo Ma, Moxin Li, Wenjie Wang, Rui Men, Yichang Zhang, Fuli Feng, Dayiheng Liu, Junyang Lin,
- Abstract要約: 大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
- 参考スコア(独自算出の注目度): 56.87891213797931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have shown promising results in complex reasoning tasks. However, current evaluations predominantly focus on single-turn reasoning scenarios, leaving interactive tasks largely unexplored. We attribute it to the absence of comprehensive datasets and scalable automatic evaluation protocols. To fill these gaps, we present MTR-Bench for LLMs' Multi-Turn Reasoning evaluation. Comprising 4 classes, 40 tasks, and 3600 instances, MTR-Bench covers diverse reasoning capabilities, fine-grained difficulty granularity, and necessitates multi-turn interactions with the environments. Moreover, MTR-Bench features fully-automated framework spanning both dataset constructions and model evaluations, which enables scalable assessment without human interventions. Extensive experiments reveal that even the cutting-edge reasoning models fall short of multi-turn, interactive reasoning tasks. And the further analysis upon these results brings valuable insights for future research in interactive AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクにおいて有望な結果を示している。
しかし、現在の評価は主にシングルターン推論のシナリオに焦点を当てており、対話的なタスクはほとんど探索されていない。
包括的データセットと拡張性のある自動評価プロトコルが存在しないためである。
これらのギャップを埋めるために, LLM のマルチTurn Reasoning 評価のための MTR-Bench を提案する。
4つのクラス、40のタスク、3600のインスタンスで構成され、MTR-Benchは様々な推論能力、きめ細かい難易度、環境とのマルチターンインタラクションを必要とする。
さらに、MTR-Benchは、データセットの構築とモデル評価の両方にまたがる完全に自動化されたフレームワークを備えており、人間の介入なしにスケーラブルなアセスメントを可能にする。
大規模な実験では、最先端の推論モデルでさえマルチターンの対話的推論タスクに不足していることが明らかになった。
そして、これらの結果に関するさらなる分析は、対話型AIシステムにおける将来の研究に貴重な洞察をもたらす。
関連論文リスト
- Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - MT-RAIG: Novel Benchmark and Evaluation Framework for Retrieval-Augmented Insight Generation over Multiple Tables [11.268174270952489]
MT-RAIG Benchは、マルチテーブル上での検索型インサイト生成システムを評価するように設計されている。
そこで本研究では,人体品質判定の精度向上を目的とした,詳細な評価フレームワークMT-RAIG Evalを紹介した。
論文 参考訳(メタデータ) (2025-02-17T12:21:13Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations [36.74309198908876]
摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
論文 参考訳(メタデータ) (2024-03-07T22:18:12Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。