論文の概要: Investigating Reinforcement Learning for Communication Strategies in a
Task-Initiative Setting
- arxiv url: http://arxiv.org/abs/2308.01479v1
- Date: Thu, 3 Aug 2023 00:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:36:40.262914
- Title: Investigating Reinforcement Learning for Communication Strategies in a
Task-Initiative Setting
- Title(参考訳): タスク開始型設定におけるコミュニケーション戦略の強化学習の検討
- Authors: Baber Khalid and Matthew Stone
- Abstract要約: 我々は,ユーザ明確化戦略の関数として,最初のプレゼンテーションとその後のフォローアップのトレードオフを分析する。
我々は、最小限のデータ要求、説明可能な選択、強力な監査機能をもたらす対話戦略の一貫性に基づく表現に対する驚くべき優位性を見出した。
- 参考スコア(独自算出の注目度): 8.680676599607123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many conversational domains require the system to present nuanced information
to users. Such systems must follow up what they say to address clarification
questions and repair misunderstandings. In this work, we explore this
interactive strategy in a referential communication task. Using simulation, we
analyze the communication trade-offs between initial presentation and
subsequent followup as a function of user clarification strategy, and compare
the performance of several baseline strategies to policies derived by
reinforcement learning. We find surprising advantages to coherence-based
representations of dialogue strategy, which bring minimal data requirements,
explainable choices, and strong audit capabilities, but incur little loss in
predicted outcomes across a wide range of user models.
- Abstract(参考訳): 多くの会話ドメインは、ユーザにニュアンス情報を提示するシステムを必要とする。
そのようなシステムは、明確化の質問と修復の誤解に対処するために、彼らの発言に従う必要がある。
本研究では,この対話的戦略を参照型コミュニケーションタスクで探求する。
シミュレーションを用いて,初回プレゼンテーションとその後のフォローアップとのコミュニケーショントレードオフをユーザの明確化戦略の関数として分析し,いくつかのベースライン戦略のパフォーマンスと強化学習によるポリシーを比較した。
データ要件の最小化,説明可能な選択,強力な監査機能を備えた対話戦略の一貫性に基づく表現には驚くべきメリットがあるが,幅広いユーザモデルにおける予測結果の損失はほとんどない。
関連論文リスト
- Strength Lies in Differences! Towards Effective Non-collaborative
Dialogues via Tailored Strategy Planning [72.5640488112819]
我々は,多様なユーザを対象とした適切な戦略計画に携わる非協力的対話エージェントについて検討する。
これは、ユーザ固有の特徴を戦略的計画に統合できないことと、多様なユーザに一般化可能な戦略的プランナーを作成できないことによる、既存の対話エージェントの課題を提起する。
本稿では、ユーザ対応戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた、戦略計画の調整能力を高めるため、TRIPを提案する。
論文 参考訳(メタデータ) (2024-03-11T14:38:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - On the Role of Emergent Communication for Social Learning in Multi-Agent
Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。
本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:23:27Z) - Modeling Non-Cooperative Dialogue: Theoretical and Empirical Insights [11.462075538526703]
視覚対話タスクの完了時に非協調的インターロケータを識別するエージェントの能力について検討する。
本研究では,非協調的インターロケータを同定する理論モデルの開発に学習理論のツールを使用し,この理論を適用して異なるコミュニケーション戦略を解析する。
論文 参考訳(メタデータ) (2022-07-15T02:08:41Z) - DialoGraph: Incorporating Interpretable Strategy-Graph Networks into
Negotiation Dialogues [19.910167188269785]
本稿では,グラフニューラルネットワークを用いた交渉対話において,現実的な戦略を取り入れた交渉システムDialoGraphを提案する。
提案手法は、戦略/対話行動予測の精度と下流対話応答生成の品質の両方において、最先端の交渉モデルより優れている。
論文 参考訳(メタデータ) (2021-06-02T03:34:36Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Dynamic Knowledge Routing Network For Target-Guided Open-Domain
Conversation [79.7781436501706]
本稿では,粗いキーワードを導入することで,システム応答の意図した内容を制御する構造的アプローチを提案する。
また,対話を円滑な目標達成に導くために,より高い成功率で対話を誘導する新たな二重談話レベルの目標誘導戦略を提案する。
論文 参考訳(メタデータ) (2020-02-04T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。