論文の概要: Conversations Gone Awry, But Then? Evaluating Conversational Forecasting Models
- arxiv url: http://arxiv.org/abs/2507.19470v1
- Date: Fri, 25 Jul 2025 17:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.060738
- Title: Conversations Gone Awry, But Then? Evaluating Conversational Forecasting Models
- Title(参考訳): 会話が待ち遠しいのに? 会話予測モデルの評価
- Authors: Son Quoc Tran, Tushaar Gangavarapu, Nicholas Chernogor, Jonathan P. Chang, Cristian Danescu-Niculescu-Mizil,
- Abstract要約: この予測能力を持つモデルの開発に関する最近の研究は、CGA(Conversations Gone Awry)タスクに焦点を当てている。
我々は、このタスクを再考し、異なるアーキテクチャの比較を可能にするベンチマークを作成する、最初の一様評価フレームワークを導入する。
また,本フレームワークでは,会話の進行とともにモデルが予測を更新する能力を捉える新しい指標も導入している。
- 参考スコア(独自算出の注目度): 5.582408085157498
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We often rely on our intuition to anticipate the direction of a conversation. Endowing automated systems with similar foresight can enable them to assist human-human interactions. Recent work on developing models with this predictive capacity has focused on the Conversations Gone Awry (CGA) task: forecasting whether an ongoing conversation will derail. In this work, we revisit this task and introduce the first uniform evaluation framework, creating a benchmark that enables direct and reliable comparisons between different architectures. This allows us to present an up-to-date overview of the current progress in CGA models, in light of recent advancements in language modeling. Our framework also introduces a novel metric that captures a model's ability to revise its forecast as the conversation progresses.
- Abstract(参考訳): 私たちはしばしば会話の方向を予測するために直感に頼っている。
同様の視点で自動化システムをエンドウイングすることで、人間と人間のインタラクションを支援することができる。
この予測能力を持つモデルの開発に関する最近の研究は、現在進行中の会話が脱線するかどうかを予知する会話 Gone Awry (CGA) タスクに焦点を当てている。
本稿では,この課題を再考し,異なるアーキテクチャ間の直接的かつ信頼性の高い比較を可能にするベンチマークを作成する,最初の一様評価フレームワークを導入する。
これにより、言語モデリングの最近の進歩を踏まえて、CGAモデルの現在の進歩の最新の概要を提示することができる。
また,本フレームワークでは,会話の進行とともにモデルが予測を更新する能力を捉える新しい指標も導入している。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics [54.03209351287654]
本稿では,音声対話システムのターンテイク能力を評価するための新しい評価プロトコルを提案する。
本稿では,既存の音声対話システムをターンテイクイベントの実行能力に基づいて評価する,初めての包括的ユーザスタディを提案する。
我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
論文 参考訳(メタデータ) (2025-03-03T04:46:04Z) - How Did We Get Here? Summarizing Conversation Dynamics [4.644319899528183]
本稿では,人文要約のデータセットを構築し,会話のダイナミクスを要約するタスクを紹介する。
このような要約が、確立された下流タスクを介して会話の軌跡を捉えることができるかどうかを評価する。
この予測タスクでは,人間と自動化システムの両方が有効であることを示す。
論文 参考訳(メタデータ) (2024-04-29T18:00:03Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Conversation Derailment Forecasting with Graph Convolutional Networks [6.251188655534379]
本稿では,対話型ユーザダイナミクスと,会話発話に対する公衆認識の影響を考慮した,グラフ畳み込みニューラルネットワークに基づく新しいモデルを提案する。
提案モデルでは,CGAとCMVのベンチマークデータセットにおいて,会話のダイナミクスを効果的に把握し,最先端のモデルをそれぞれ1.5%,1.7%向上させる。
論文 参考訳(メタデータ) (2023-06-22T15:40:59Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - A Neural Conversation Generation Model via Equivalent Shared Memory
Investigation [39.922967513749654]
DRMN(Deep Reading Memory Network)と呼ばれる新しい読み書き・記憶フレームワークを提案する。
DRMNは、発話生成を改善するために、類似した会話の有用な情報を記憶することができる。
弊社のモデルは、正義とeコマースの2つの大規模な会話データセットに適用する。
論文 参考訳(メタデータ) (2021-08-20T13:20:14Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。