論文の概要: MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games
- arxiv url: http://arxiv.org/abs/2602.24188v1
- Date: Fri, 27 Feb 2026 17:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.53236
- Title: MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games
- Title(参考訳): MT-PingEval: プライベート情報ゲームによるマルチTurnコラボレーションの評価
- Authors: Jacob Eisenstein, Fantine Huot, Adam Fisch, Jonathan Berant, Mirella Lapata,
- Abstract要約: 我々は,プライベート情報に関する効果的なコミュニケーションを必要とする協調ゲーム群を用いて,マルチターンインタラクションにおける言語モデルの評価を行った。
言語モデルでは,非対話的なベースラインシナリオを改善するために,対話的なコラボレーションを利用できないことがわかった。
我々は,これらの対話の言語的特徴を分析し,サイコフナンシー,情報密度,談話コヒーレンスの役割を評価する。
- 参考スコア(独自算出の注目度): 70.37904949359938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a scalable methodology for evaluating language models in multi-turn interactions, using a suite of collaborative games that require effective communication about private information. This enables an interactive scaling analysis, in which a fixed token budget is divided over a variable number of turns. We find that in many cases, language models are unable to use interactive collaboration to improve over the non-interactive baseline scenario in which one agent attempts to summarize its information and the other agent immediately acts -- despite substantial headroom. This suggests that state-of-the-art models still suffer from significant weaknesses in planning and executing multi-turn collaborative conversations. We analyze the linguistic features of these dialogues, assessing the roles of sycophancy, information density, and discourse coherence. While there is no single linguistic explanation for the collaborative weaknesses of contemporary language models, we note that humans achieve comparable task success at superior token efficiency by producing dialogues that are more coherent than those produced by most language models. The proactive management of private information is a defining feature of real-world communication, and we hope that MT-PingEval will drive further work towards improving this capability.
- Abstract(参考訳): 本稿では,多ターンインタラクションにおける言語モデル評価のためのスケーラブルな手法を提案する。
これによりインタラクティブなスケーリング分析が可能になり、固定トークンの予算が可変数のターンで分割される。
多くの場合、言語モデルは対話的なコラボレーションを使って、対話的でないベースラインのシナリオを改善することができず、あるエージェントがその情報を要約しようとすると、他のエージェントはすぐに行動する。
これは、最先端のモデルが、マルチターンのコラボレーティブな会話の計画と実行において、依然として重大な弱点に悩まされていることを示唆している。
我々は,これらの対話の言語的特徴を分析し,サイコフナンシー,情報密度,談話コヒーレンスの役割を評価する。
現代言語モデルの協調的弱点に関する言語学的説明は存在しないが、ほとんどの言語モデルが生み出すものよりも一貫性のある対話を生成することにより、人間が優れたトークン効率で同等のタスク成功を達成することに留意する。
プライベート情報の積極的な管理は,実世界のコミュニケーションにおける決定的な特徴であり,MT-PingEvalがこの能力の向上に向けてさらなる取り組みを進めることを願っている。
関連論文リスト
- LinguaGame: A Linguistically Grounded Game-Theoretic Paradigm for Multi-Agent Dialogue Generation [17.584631586928815]
本稿では,多エージェント対話生成のための言語論的ゲーム理論パラダイムを提案する。
我々のフレームワークは、最小限のタスク固有結合を伴う言語情報推論に依存している。
我々は,模擬法廷手続と議論における枠組みを評価し,コミュニケーション効率の大幅な向上を示す人間専門家の評価を行った。
論文 参考訳(メタデータ) (2026-01-08T02:30:43Z) - Analyzing and Improving Cross-lingual Knowledge Transfer for Machine Translation [5.878901309908815]
ニューラルモデルにおける言語間知識伝達について検討し,多言語環境におけるロバストネスと一般化を改善する手法を開発した。
学習中の言語多様性の役割について検討し,翻訳範囲の増加が一般化を改善し,目標外行動を低減することを示す。
論文 参考訳(メタデータ) (2026-01-07T15:51:54Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。
この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文 参考訳(メタデータ) (2025-05-09T11:48:36Z) - From Intents to Conversations: Generating Intent-Driven Dialogues with Contrastive Learning for Multi-Turn Classification [21.6988262735281]
Chain-of-Intentは、隠れマルコフモデルと大規模言語モデルを統合する新しいフレームワークである。
MINT-CLはマルチターンインテント分類のための対照的な学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-21T15:59:29Z) - A Comparative Analysis of Conversational Large Language Models in
Knowledge-Based Text Generation [5.661396828160973]
本研究では,意味的三重項から自然言語文を生成する際に,対話型大規模言語モデルの実証分析を行う。
我々は、異なるプロンプト技術を用いて、異なる大きさの4つの大きな言語モデルを比較する。
この結果から,三重動詞化における大規模言語モデルの能力は,数発のプロンプト,後処理,効率的な微調整技術によって著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-02T15:26:39Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - A Short Survey of Pre-trained Language Models for Conversational AI-A
NewAge in NLP [17.10418053437171]
最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性がある。
これらのモデルは、階層的関係、長期依存、感情など、異なる言語の側面を捉えることを実証している。
本論文では,これらの事前学習モデルが対話システムに関連する課題を克服できるかどうかを明らかにする。
論文 参考訳(メタデータ) (2021-04-22T01:00:56Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。