論文の概要: Investigating Reinforcement Learning for Communication Strategies in a
Task-Initiative Setting
- arxiv url: http://arxiv.org/abs/2308.01479v1
- Date: Thu, 3 Aug 2023 00:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:36:40.262914
- Title: Investigating Reinforcement Learning for Communication Strategies in a
Task-Initiative Setting
- Title(参考訳): タスク開始型設定におけるコミュニケーション戦略の強化学習の検討
- Authors: Baber Khalid and Matthew Stone
- Abstract要約: 我々は,ユーザ明確化戦略の関数として,最初のプレゼンテーションとその後のフォローアップのトレードオフを分析する。
我々は、最小限のデータ要求、説明可能な選択、強力な監査機能をもたらす対話戦略の一貫性に基づく表現に対する驚くべき優位性を見出した。
- 参考スコア(独自算出の注目度): 8.680676599607123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many conversational domains require the system to present nuanced information
to users. Such systems must follow up what they say to address clarification
questions and repair misunderstandings. In this work, we explore this
interactive strategy in a referential communication task. Using simulation, we
analyze the communication trade-offs between initial presentation and
subsequent followup as a function of user clarification strategy, and compare
the performance of several baseline strategies to policies derived by
reinforcement learning. We find surprising advantages to coherence-based
representations of dialogue strategy, which bring minimal data requirements,
explainable choices, and strong audit capabilities, but incur little loss in
predicted outcomes across a wide range of user models.
- Abstract(参考訳): 多くの会話ドメインは、ユーザにニュアンス情報を提示するシステムを必要とする。
そのようなシステムは、明確化の質問と修復の誤解に対処するために、彼らの発言に従う必要がある。
本研究では,この対話的戦略を参照型コミュニケーションタスクで探求する。
シミュレーションを用いて,初回プレゼンテーションとその後のフォローアップとのコミュニケーショントレードオフをユーザの明確化戦略の関数として分析し,いくつかのベースライン戦略のパフォーマンスと強化学習によるポリシーを比較した。
データ要件の最小化,説明可能な選択,強力な監査機能を備えた対話戦略の一貫性に基づく表現には驚くべきメリットがあるが,幅広いユーザモデルにおける予測結果の損失はほとんどない。
関連論文リスト
- Rapport-Driven Virtual Agent: Rapport Building Dialogue Strategy for Improving User Experience at First Meeting [3.059886686838972]
本研究の目的は、ラプポート構築戦略を用いて、小さな講演を通して人間とエージェントのラプポートを確立することである。
対話戦略に基づく仮想エージェントのためのこの戦略を,大規模言語モデル(LLM)の推進により実現した。
論文 参考訳(メタデータ) (2024-06-14T08:47:15Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Strength Lies in Differences! Towards Effective Non-collaborative Dialogues via Tailored Strategy Planning [69.5677514160986]
本研究では,多様なユーザとの戦略的対話に携わる非協力的対話エージェントについて検討する。
これは既存の対話エージェントに2つの大きな課題をもたらす。
本稿では,ユーザ認識型戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた,適切な戦略計画の能力を高めるためのTripを提案する。
論文 参考訳(メタデータ) (2024-03-11T14:38:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - On the Role of Emergent Communication for Social Learning in Multi-Agent
Reinforcement Learning [0.0]
社会学習は、専門家からのヒントを使って、異質なポリシーを整列し、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決する。
本稿では,情報ボトルネックに基づく教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T03:23:27Z) - Modeling Non-Cooperative Dialogue: Theoretical and Empirical Insights [11.462075538526703]
視覚対話タスクの完了時に非協調的インターロケータを識別するエージェントの能力について検討する。
本研究では,非協調的インターロケータを同定する理論モデルの開発に学習理論のツールを使用し,この理論を適用して異なるコミュニケーション戦略を解析する。
論文 参考訳(メタデータ) (2022-07-15T02:08:41Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Dynamic Knowledge Routing Network For Target-Guided Open-Domain
Conversation [79.7781436501706]
本稿では,粗いキーワードを導入することで,システム応答の意図した内容を制御する構造的アプローチを提案する。
また,対話を円滑な目標達成に導くために,より高い成功率で対話を誘導する新たな二重談話レベルの目標誘導戦略を提案する。
論文 参考訳(メタデータ) (2020-02-04T09:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。