Fugu-MT 論文翻訳(概要): Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies

論文の概要: Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies

arxiv url: http://arxiv.org/abs/2503.16544v1
Date: Wed, 19 Mar 2025 06:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.092229
Title: Causal Discovery and Counterfactual Reasoning to Optimize Persuasive Dialogue Policies
Title（参考訳）: 説得的対話ポリシーの最適化のための因果発見と反事実推論
Authors: Donghuo Zeng, Roberto Legaspi, Yuewen Sun, Xinshuai Dong, Kazushi Ikeda, Peter Spirtes, Kun Zhang,
Abstract要約: 因果的発見と反ファクト的推論を用いて、システムパースケーション能力と結果の最適化を行う。 PersuasionForGoodデータセットによる実験では,説得結果の計測精度が向上した。
参考スコア（独自算出の注目度）: 14.324214906731923
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tailoring persuasive conversations to users leads to more effective persuasion. However, existing dialogue systems often struggle to adapt to dynamically evolving user states. This paper presents a novel method that leverages causal discovery and counterfactual reasoning for optimizing system persuasion capability and outcomes. We employ the Greedy Relaxation of the Sparsest Permutation (GRaSP) algorithm to identify causal relationships between user and system utterance strategies, treating user strategies as states and system strategies as actions. GRaSP identifies user strategies as causal factors influencing system responses, which inform Bidirectional Conditional Generative Adversarial Networks (BiCoGAN) in generating counterfactual utterances for the system. Subsequently, we use the Dueling Double Deep Q-Network (D3QN) model to utilize counterfactual data to determine the best policy for selecting system utterances. Our experiments with the PersuasionForGood dataset show measurable improvements in persuasion outcomes using our approach over baseline methods. The observed increase in cumulative rewards and Q-values highlights the effectiveness of causal discovery in enhancing counterfactual reasoning and optimizing reinforcement learning policies for online dialogue systems.
Abstract（参考訳）: 説得力のある会話をユーザーに提供することは、より効果的な説得につながる。しかし、既存の対話システムは、動的に進化するユーザ状態に適応するのに苦労することが多い。本稿では,因果的発見と反ファクト的推論を利用して,システムパースケーション能力と結果の最適化を行う手法を提案する。我々は、ユーザとシステム発話戦略の因果関係を識別し、ユーザ戦略を状態として扱い、システム戦略をアクションとして扱うために、Graedy Relaxation of the Sparsest Permutation (GRaSP)アルゴリズムを用いる。 GRaSPは,システム応答に影響を及ぼす因果的要因としてユーザ戦略を識別し,システムに対する反実的な発話を生成するために,双方向条件生成敵ネットワーク(BiCoGAN)に通知する。次に、D3QNモデルを用いて、対実データを用いて、システム発話の選択に最適なポリシーを決定する。 PersuasionForGoodデータセットを用いた実験では,ベースライン法に対するアプローチを用いて,説得結果の計測精度が向上した。累積報酬とQ値の増加は, オンライン対話システムにおいて, 対実的推論を強化し, 強化学習ポリシーを最適化する因果発見の有効性を強調している。

関連論文リスト

Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文参考訳（メタデータ） (2025-04-09T13:21:17Z)
Generative Framework for Personalized Persuasion: Inferring Causal, Counterfactual, and Latent Knowledge [14.324214906731923]
代替システム応答の効果を調べるための仮説シナリオを作成する。我々は、ユーザとシステム発話間の戦略レベルの因果関係を特定するために因果発見を用いる。対実データに基づいてシステム応答を選択するためのポリシーを最適化する。
論文参考訳（メタデータ） (2025-04-08T15:33:54Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文参考訳（メタデータ） (2024-04-21T23:03:47Z)
Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability [1.0985060632689174]
本研究の目的は,本研究の本質的な動機づけ強化学習アルゴリズムを検討することである。我々は,ランダムなネットワーク蒸留と好奇心駆動型強化学習に適応して,国家訪問頻度を測定する。不均質なデータセットであるMultiWOZの実験結果は、本質的なモチベーションに基づく議論システムは、外生的なインセンティブに依存する政策より優れていることを示している。
論文参考訳（メタデータ） (2024-01-31T18:03:39Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文参考訳（メタデータ） (2023-10-12T14:44:05Z)
PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文参考訳（メタデータ） (2023-09-19T08:27:09Z)
Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文参考訳（メタデータ） (2022-05-13T21:09:41Z)
What Does The User Want? Information Gain for Hierarchical Dialogue Policy Optimisation [3.1433893853959605]
強化学習(RL)による最適化は、非効率性と不安定性のサンプリングに影響を受けやすい。本稿では,この問題に対処するための情報ゲインに基づく本質的な報酬の利用を提案する。 FeudalGainと呼ばれる我々のアルゴリズムは、PyDialフレームワークのほとんどの環境で最先端の結果を得る。
論文参考訳（メタデータ） (2021-09-15T07:21:26Z)
Persuasive Dialogue Understanding: the Baselines and Negative Results [27.162062321321805]
本研究では,コンディショナルランダムフィールド(CRF)と組み合わされたトランスフォーマーベースのアプローチの限界を,説得的戦略認識の課題として示す。話者間および話者内コンテキストセマンティックな特徴とラベル依存を利用して認識を改善する。
論文参考訳（メタデータ） (2020-11-19T16:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。