論文の概要: DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems
- arxiv url: http://arxiv.org/abs/2509.19695v1
- Date: Wed, 24 Sep 2025 02:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.662555
- Title: DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems
- Title(参考訳): DyBBT: 認知デュアルシステムを用いた対話ポリシーのためのBanditインスパイアされたターゲティングによる動的バランス
- Authors: Shuyu Zhang, Yifan Wei, Jialuo Yuan, Xinru Wang, Yanmin Zhu, Bin Li,
- Abstract要約: タスク指向のダイアログシステムは、動的ダイアログコンテキストに適応しない静的な探索戦略に依存することが多い。
構造化された認知状態空間を通じて探索課題を定式化する新しいダイアログポリシー学習フレームワークであるDyBBTを提案する。
DyBBTは成功率、効率、一般化のパフォーマンスを達成し、人間の評価は、その決定が専門家の判断とよく一致していることを確認した。
- 参考スコア(独自算出の注目度): 11.553009698644077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task oriented dialog systems often rely on static exploration strategies that do not adapt to dynamic dialog contexts, leading to inefficient exploration and suboptimal performance. We propose DyBBT, a novel dialog policy learning framework that formalizes the exploration challenge through a structured cognitive state space capturing dialog progression, user uncertainty, and slot dependency. DyBBT proposes a bandit inspired meta-controller that dynamically switches between a fast intuitive inference (System 1) and a slow deliberative reasoner (System 2) based on real-time cognitive states and visitation counts. Extensive experiments on single- and multi-domain benchmarks show that DyBBT achieves state-of-the-art performance in success rate, efficiency, and generalization, with human evaluations confirming its decisions are well aligned with expert judgment. Code is available at https://github.com/carsonz/DyBBT.
- Abstract(参考訳): タスク指向のダイアログシステムは、動的ダイアログコンテキストに適応しない静的な探索戦略に依存しており、非効率な探索と準最適性能をもたらす。
ダイアログの進行状況,ユーザ不確実性,スロット依存性を把握した構造化認知状態空間を通じて探索課題を形式化する新しいダイアログポリシー学習フレームワークであるDyBBTを提案する。
DyBBTは、高速直感的推論を動的に切り替えるバンディットインスパイアされたメタコントローラを提案する(システム)
1)緩やかな熟考的推論(システム)
2) リアルタイム認知状態と訪問回数に基づく。
シングルドメインとマルチドメインのベンチマークによる大規模な実験により、DyBBTは成功率、効率、一般化において最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/carsonz/DyBBT.comで入手できる。
関連論文リスト
- On Mitigating Data Sparsity in Conversational Recommender Systems [69.70761335240738]
会話レコメンデータシステム(CRS)は、対話中のテキスト情報を通じてユーザの好みをキャプチャする。
対話空間は広大で言語的に多様であり、アイテム空間は長い尾とスパース分布を示す。
既存の手法では,(1)リッチテキストの活用による多様な対話表現の一般化,(2)重度の疎度下での情報表現の学習に苦慮している。
論文 参考訳(メタデータ) (2025-07-01T06:54:51Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。
我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。
我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文 参考訳(メタデータ) (2023-05-23T09:24:53Z) - Interactive Evaluation of Dialog Track at DSTC9 [8.2208199207543]
第9回ダイアログ・システム・テクノロジー・チャレンジで対話的ダイアログ・トラックの評価が導入された。
本稿では,方法論と結果を含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2022-07-28T22:54:04Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。