論文の概要: Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies
- arxiv url: http://arxiv.org/abs/2503.16544v1
- Date: Wed, 19 Mar 2025 06:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:12.825997
- Title: Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies
- Title(参考訳): 説得的対話ポリシーの最適化のための因果発見と反事実推論
- Authors: Donghuo Zeng, Roberto Legaspi, Yuewen Sun, Xinshuai Dong, Kazushi Ikeda, Peter Spirtes, Kun Zhang,
- Abstract要約: 因果的発見と反ファクト的推論を用いて、システムパースケーション能力と結果の最適化を行う。
PersuasionForGoodデータセットによる実験では,説得結果の計測精度が向上した。
- 参考スコア(独自算出の注目度): 14.324214906731923
- License:
- Abstract: Tailoring persuasive conversations to users leads to more effective persuasion. However, existing dialogue systems often struggle to adapt to dynamically evolving user states. This paper presents a novel method that leverages causal discovery and counterfactual reasoning for optimizing system persuasion capability and outcomes. We employ the Greedy Relaxation of the Sparsest Permutation (GRaSP) algorithm to identify causal relationships between user and system utterance strategies, treating user strategies as states and system strategies as actions. GRaSP identifies user strategies as causal factors influencing system responses, which inform Bidirectional Conditional Generative Adversarial Networks (BiCoGAN) in generating counterfactual utterances for the system. Subsequently, we use the Dueling Double Deep Q-Network (D3QN) model to utilize counterfactual data to determine the best policy for selecting system utterances. Our experiments with the PersuasionForGood dataset show measurable improvements in persuasion outcomes using our approach over baseline methods. The observed increase in cumulative rewards and Q-values highlights the effectiveness of causal discovery in enhancing counterfactual reasoning and optimizing reinforcement learning policies for online dialogue systems.
- Abstract(参考訳): 説得力のある会話をユーザーに提供することは、より効果的な説得につながる。
しかし、既存の対話システムは、動的に進化するユーザ状態に適応するのに苦労することが多い。
本稿では,因果的発見と反ファクト的推論を利用して,システムパースケーション能力と結果の最適化を行う手法を提案する。
我々は、ユーザとシステム発話戦略の因果関係を識別し、ユーザ戦略を状態として扱い、システム戦略をアクションとして扱うために、Graedy Relaxation of the Sparsest Permutation (GRaSP)アルゴリズムを用いる。
GRaSPは,システム応答に影響を及ぼす因果的要因としてユーザ戦略を識別し,システムに対する反実的な発話を生成するために,双方向条件生成敵ネットワーク(BiCoGAN)に通知する。
次に、D3QNモデルを用いて、対実データを用いて、システム発話の選択に最適なポリシーを決定する。
PersuasionForGoodデータセットを用いた実験では,ベースライン法に対するアプローチを用いて,説得結果の計測精度が向上した。
累積報酬とQ値の増加は, オンライン対話システムにおいて, 対実的推論を強化し, 強化学習ポリシーを最適化する因果発見の有効性を強調している。
関連論文リスト
- Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。
我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文 参考訳(メタデータ) (2024-04-21T23:03:47Z) - Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability [1.0985060632689174]
本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。
我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。
不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
論文 参考訳(メタデータ) (2024-01-31T18:03:39Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Improving Factual Consistency for Knowledge-Grounded Dialogue Systems
via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。
トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-12T14:44:05Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Enhancing Large Language Model Induced Task-Oriented Dialogue Systems
Through Look-Forward Motivated Goals [76.69419538047813]
ProToDアプローチは、将来の対話行動を予測し、ToDシステムを強化するためにゴール指向の報酬シグナルを組み込む。
本稿では,目標駆動型対話シミュレーションに基づくToDシステム評価手法を提案する。
また,MultiWoZ 2.1データセットを用いた実験により,データの10%しか利用せず,優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-09-16T10:56:00Z) - Evaluating and Improving Context Attention Distribution on Multi-Turn
Response Generation using Self-Contained Distractions [0.18275108630751835]
我々は,マルチターン生成に基づく会話エージェントの本質的構成要素であるコンテキストアテンション分布に着目した。
このコンポーネントの性能向上のために,自己完結型散逸を利用した最適化戦略を提案する。
Ubuntuのチャットログデータセットを用いた実験により,コンテクストアテンション分布において,同等のパープレキシティを持つモデルを識別できることが判明した。
論文 参考訳(メタデータ) (2022-11-09T15:12:20Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - What Does The User Want? Information Gain for Hierarchical Dialogue
Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。
本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。
FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-15T07:21:26Z) - Persuasive Dialogue Understanding: the Baselines and Negative Results [27.162062321321805]
本研究では,コンディショナルランダムフィールド(CRF)と組み合わされたトランスフォーマーベースのアプローチの限界を,説得的戦略認識の課題として示す。
話者間および話者内コンテキストセマンティックな特徴とラベル依存を利用して認識を改善する。
論文 参考訳(メタデータ) (2020-11-19T16:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。