論文の概要: TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities
- arxiv url: http://arxiv.org/abs/2603.16759v1
- Date: Tue, 17 Mar 2026 16:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.422799
- Title: TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities
- Title(参考訳): TurnWise:シングルターン言語モデルとマルチターン言語モデルのギャップ
- Authors: Victoria Graf, Valentina Pyatkin, Nouha Dziri, Nathan Lambert, Hannaneh Hajishirzi,
- Abstract要約: 我々は、シングルターンチャット評価と直接比較できるマルチターン機能のための新しいベンチマークであるTurnWiseEvalを導入する。
また、マルチターントレーニングデータのスケーラブルな生成を可能にする合成マルチターンデータパイプラインであるTurnWiseDataについても紹介する。
Olmo 3 を用いた実験により,マルチターンデータによるトレーニングが,マルチターンチャットの性能向上に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 57.865325277036455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn conversations are a common and critical mode of language model interaction. However, current open training and evaluation data focus on single-turn settings, failing to capture the additional dimension of these longer interactions. To understand this multi-/single-turn gap, we first introduce a new benchmark, TurnWiseEval, for multi-turn capabilities that is directly comparable to single-turn chat evaluation. Our evaluation isolates multi-turn specific conversational ability through pairwise comparison to equivalent single-turn settings. We additionally introduce our synthetic multi-turn data pipeline TurnWiseData which allows the scalable generation of multi-turn training data. Our experiments with Olmo 3 show that training with multi-turn data is vital to achieving strong multi-turn chat performance, and that including as little as 10k multi-turn conversations during post-training can lead to a 12% improvement on TurnWiseEval.
- Abstract(参考訳): マルチターン会話は言語モデル相互作用の共通かつ重要なモードである。
しかし、現在のオープントレーニングと評価データはシングルターン設定に重点を置いており、これらの長いインタラクションの余分な次元を捉えていない。
このマルチターン/シングルターンのギャップを理解するために、まず、シングルターンチャット評価と直接比較可能なマルチターン機能のための新しいベンチマークであるTurnWiseEvalを導入する。
本評価では,等価な単ターン設定とペアワイズ比較により,マルチターン特定会話能力の分離を行う。
また、マルチターントレーニングデータのスケーラブルな生成を可能にする合成マルチターンデータパイプラインであるTurnWiseDataについても紹介する。
Olmo 3を用いた実験では,マルチターンデータによるトレーニングは,マルチターンチャットのパフォーマンス向上に不可欠であり,ポストトレーニング中の10万件のマルチターン会話を含むと,TurnWiseEvalの12%の改善につながることが示された。
関連論文リスト
- One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [59.12542274007847]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
LoopServeは、既存のベースラインに比べて一貫して優れた効率を実現している。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - MultiTurnCleanup: A Benchmark for Multi-Turn Spoken Conversational
Transcript Cleanup [13.4369374707379]
本研究は,会話音声の書き起こしに革新的なマルチトゥルンクリーンアップタスクを提案する。
我々は、高品質なデータセットを収集し、広範囲なデータ分析を提供するために、データラベリングスキーマを設計する。
論文 参考訳(メタデータ) (2023-05-19T22:50:02Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。