Fugu-MT 論文翻訳(概要): Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations

論文の概要: Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations

arxiv url: http://arxiv.org/abs/2411.05194v1
Date: Thu, 07 Nov 2024 21:37:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.608126
Title: Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations
Title（参考訳）: 直視再生における強化学習による対話型対話エージェント
Authors: Joey Hong, Jessica Lin, Anca Dragan, Sergey Levine,
Abstract要約: 多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
参考スコア（独自算出の注目度）: 58.65755268815283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress on large language models (LLMs) has enabled dialogue agents to generate highly naturalistic and plausible text. However, current LLM language generation focuses on responding accurately to questions and requests with a single effective response. In reality, many real dialogues are interactive, meaning an agent's utterances will influence their conversational partner, elicit information, or change their opinion. Accounting for how an agent can effectively steer a conversation is a crucial ability in many dialogue tasks, from healthcare to preference elicitation. Existing methods for fine-tuning dialogue agents to accomplish such tasks would rely on curating some amount of expert data. However, doing so often requires understanding the underlying cognitive processes of the conversational partner, which is a skill neither humans nor LLMs trained on human data can reliably do. Our key insight is that while LLMs may not be adept at identifying effective strategies for steering conversations a priori, or in the middle of an ongoing conversation, they can do so post-hoc, or in hindsight, after seeing how their conversational partner responds. We use this fact to rewrite and augment existing suboptimal data, and train via offline reinforcement learning (RL) an agent that outperforms both prompting and learning from unaltered human demonstrations. We apply our approach to two domains that require understanding human mental state, intelligent interaction, and persuasion: mental health support, and soliciting charitable donations. Our results in a user study with real humans show that our approach greatly outperforms existing state-of-the-art dialogue agents.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩により、対話エージェントは、非常に自然主義的で可読なテキストを生成できるようになった。しかし、現在のLLM言語生成は、単一の効果的な応答で質問や要求に正確に応答することに焦点を当てている。実際、多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。エージェントが会話を効果的に操る方法を説明することは、医療から嗜好の誘惑に至るまで、多くの対話タスクにおいて重要な能力である。このようなタスクをこなすための微調整ダイアログエージェントの既存の方法は、ある程度の専門家データのキュレーションに依存している。しかし、会話パートナーの基本的な認知プロセスを理解する必要があることが多い。これは人間でも人間のデータで訓練されたLLMでも確実にできないスキルだ。我々の重要な洞察は、LLMは会話を優先的に、または進行中の会話の途中で、会話の相手がどのように反応するかを見て、後から、あるいは後から見れば、会話を操る効果的な戦略を特定できないかもしれないということです。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。我々は、人間の精神状態、知的相互作用、説得の理解を必要とする2つの領域、メンタルヘルスサポート、慈善寄付を要請する2つの領域にアプローチを適用する。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。

関連論文リスト

Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文参考訳（メタデータ） (2025-02-28T03:18:39Z)
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.196865401472664]
自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文参考訳（メタデータ） (2025-02-09T22:44:45Z)
Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-19T04:10:53Z)
Data Augmentation of Multi-turn Psychological Dialogue via Knowledge-driven Progressive Thought Prompting [46.919537239016734]
大規模言語モデル(LLM)はマルチターン対話の実装を単純化した。心理的対話のような低リソース領域で満足なパフォーマンスを実現することは依然として困難です。心理学的対話を生成するための LLM 指導のための知識駆動型進歩的思考促進手法を提案する。
論文参考訳（メタデータ） (2024-06-24T12:02:56Z)
Think Before You Speak: Cultivating Communication Skills of Large Language Models via Inner Monologue [73.69510478736483]
大規模言語モデル(LLM)は、流動的で一貫性があり多様な応答を生成する。しかし、それらは重要な能力、コミュニケーションスキルを欠いている。本稿は,内的モノローグによるLLMのコミュニケーション能力向上を目的としている。実験の結果,提案したCSIM戦略はバックボーンモデルを改善し,ベースラインよりも優れていた。
論文参考訳（メタデータ） (2023-11-13T16:19:42Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。 i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文参考訳（メタデータ） (2022-05-31T19:00:41Z)
CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文参考訳（メタデータ） (2022-04-18T17:43:21Z)
Coral: An Approach for Conversational Agents in Mental Health Applications [0.0]
本稿では,心的健康に役立てることができる生成的共感型オープンドメインロボットの創出について述べる。我々は、大規模事前学習と共感的会話データを利用して、自然界の反応をより共感的にする。我々のモデルは共感対話テストセットで最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-16T15:15:58Z)
Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文参考訳（メタデータ） (2021-07-12T19:26:11Z)
Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文参考訳（メタデータ） (2020-10-10T02:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。