論文の概要: Beyond Task-Oriented and Chitchat Dialogues: Proactive and Transition-Aware Conversational Agents
- arxiv url: http://arxiv.org/abs/2511.08835v1
- Date: Thu, 13 Nov 2025 01:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.248414
- Title: Beyond Task-Oriented and Chitchat Dialogues: Proactive and Transition-Aware Conversational Agents
- Title(参考訳): タスク指向・チャンチャット対話を超えて:プロアクティブ・トランジション対応対話エージェント
- Authors: Yejin Yoon, Yuri Son, Namyoung So, Minseo Kim, Minsoo Cho, Chanhee Park, Seungshin Lee, Taeuk Kim,
- Abstract要約: TACT(TOD-And-Chitchat Transition)は,トランジッション・アウェア・ダイアログ・モデリング用に設計されたデータセットである。
TACTは、ユーザとエージェント駆動のモードスイッチの両方をサポートし、複雑な対話力学の堅牢なモデリングを可能にする。
TACTで訓練されたモデルは、インテント検出とモード遷移処理の両方においてベースラインを上回った。
- 参考スコア(独自算出の注目度): 9.57795435306441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational agents have traditionally been developed for either task-oriented dialogue (TOD) or open-ended chitchat, with limited progress in unifying the two. Yet, real-world conversations naturally involve fluid transitions between these modes. To address this gap, we introduce TACT (TOD-And-Chitchat Transition), a dataset designed for transition-aware dialogue modeling that incorporates structurally diverse and integrated mode flows. TACT supports both user- and agent-driven mode switches, enabling robust modeling of complex conversational dynamics. To evaluate an agent's ability to initiate and recover from mode transitions, we propose two new metrics -- Switch and Recovery. Models trained on TACT outperform baselines in both intent detection and mode transition handling. Moreover, applying Direct Preference Optimization (DPO) to TACT-trained models yields additional gains, achieving 75.74\% joint mode-intent accuracy and a 70.1\% win rate against GPT-4o in human evaluation. These results demonstrate that pairing structurally diverse data with DPO enhances response quality and transition control, paving the way for more proactive and transition-aware conversational agents.
- Abstract(参考訳): 会話エージェントは、伝統的にタスク指向対話(TOD)またはオープンエンド・チチャット(英語版)のために開発され、これら2つの統合の進展は限られている。
しかし、現実世界の会話には、これらのモード間の流動的な遷移が自然に伴う。
このギャップに対処するために、構造的に多様性があり統合されたモードフローを含むトランジッション・アウェア・ダイアログ・モデリング用に設計されたデータセットであるTACT(TOD-And-Chitchat Transition)を導入する。
TACTは、ユーザとエージェント駆動のモードスイッチの両方をサポートし、複雑な対話力学の堅牢なモデリングを可能にする。
エージェントがモード遷移を起動し、回復する能力を評価するために、スイッチとリカバリという2つの新しい指標を提案する。
TACTで訓練されたモデルは、インテント検出とモード遷移処理の両方においてベースラインを上回った。
さらに、直接選好最適化(DPO)をTACT訓練モデルに適用すると、GPT-4oに対する75.74\%のジョイントモード入出力精度と70.1\%の勝利率が得られる。
これらの結果は、DPOと構造的に多様なデータを組み合わせることで、応答品質と遷移制御が向上し、より能動的で遷移に敏感な会話エージェントへの道が開かれたことを示している。
関連論文リスト
- ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - Proactive Guidance of Multi-Turn Conversation in Industrial Search [38.18559057329515]
プロアクティブガイダンスを提供するための新しい2段階フレームワークを提案する。
Goal-Adaptive Supervised Fine-Tuning (G-SFT)はゴール関連コンテキスト情報を提供する。
クリック指向強化学習(C-RL)は、ユーザのクリック信号から好みのペアを構築し、クリックスルー率を積極的に改善する。
論文 参考訳(メタデータ) (2025-05-30T06:16:30Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Dialog Action-Aware Transformer for Dialog Policy Learning [22.262659702998892]
本稿では,RLエージェントの学習速度を高速化するために,事前学習言語モデルからプレーンテキスト知識をフル活用することを提案する。
具体的には,ダイアログアクション対応トランスフォーマーエンコーダ(DaTrans)を設計し,マスクされた最後のアクションタスクと呼ばれる新しい微調整手順を統合する。
DaTransはさらに、継続的な相互作用を伴うRL環境で最適化され、長期蓄積された報酬を最大化するためにダイアログアクション空間での探索を通じて進化する。
論文 参考訳(メタデータ) (2023-09-05T13:47:25Z) - System-Initiated Transitions from Chit-Chat to Task-Oriented Dialogues
with Transition Info Extractor and Transition Sentence Generator [4.714297769572548]
チャットから始まる対話シナリオについて検討するが、最終的にはタスク関連サービスに切り替える。
統合対話モデルは、チャットとタスク指向対話の両方に関わり得るが、対話モード遷移の間は主導権を握る。
論文 参考訳(メタデータ) (2023-08-06T12:25:22Z) - Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。
状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。
実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文 参考訳(メタデータ) (2020-06-03T23:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。