論文の概要: SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.13159v1
- Date: Mon, 15 Dec 2025 10:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.618539
- Title: SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning
- Title(参考訳): SpeakRL:強化学習を伴う言語モデルにおける推論、話し、行動の相乗化
- Authors: Emre Can Acikgoz, Jinoh Oh, Jie Hao, Joo Hyuk Jeon, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur, Xiang Li, Chengyuan Ma, Xing Fan,
- Abstract要約: SpeakRLは、エージェントの会話能力を高めるための強化学習(RL)手法である。
本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
- 参考スコア(独自算出の注目度): 46.70182219204539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective human-agent collaboration is increasingly prevalent in real-world applications. Current trends in such collaborations are predominantly unidirectional, with users providing instructions or posing questions to agents, where agents respond directly without seeking necessary clarifications or confirmations. However, the evolving capabilities of these agents require more proactive engagement, where agents should dynamically participate in conversations to clarify user intents, resolve ambiguities, and adapt to changing circumstances. Existing prior work under-utilize the conversational capabilities of language models (LMs), thereby optimizing agents as better followers rather than effective speakers. In this work, we introduce SpeakRL, a reinforcement learning (RL) method that enhances agents' conversational capabilities by rewarding proactive interactions with users, such as asking right clarification questions when necessary. To support this, we curate SpeakER, a synthetic dataset that includes diverse scenarios from task-oriented dialogues, where tasks are resolved through interactive clarification questions. We present a systematic analysis of reward design for conversational proactivity and propose a principled reward formulation for teaching agents to balance asking with acting. Empirical evaluations demonstrate that our approach achieves a 20.14% absolute improvement in task completion over base models without increasing conversation turns even surpassing even much larger proprietary models, demonstrating the promise of clarification-centric user-agent interactions.
- Abstract(参考訳): 現実のアプリケーションでは、効果的な人間とエージェントのコラボレーションがますます普及している。
このようなコラボレーションの現在の傾向は、主に一方向であり、ユーザーはエージェントに指示や質問のポーズを提供し、エージェントは必要な明確化や確認を求めずに直接応答する。
しかし、これらのエージェントの進化する能力は、より積極的な関与を必要とし、エージェントは会話に動的に参加し、ユーザの意図を明確にし、あいまいさを解消し、変化する状況に適応する必要がある。
既存の作業は、言語モデル(LM)の会話能力の基盤となるため、効果的な話者ではなく、より良いフォロワーとしてエージェントを最適化する。
本研究では,エージェントの対話能力を高めるための強化学習(RL)手法であるSpeakRLを紹介する。
これをサポートするために、タスク指向対話から多様なシナリオを含む合成データセットであるSpeakERをキュレートする。
本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
実験的な評価では,会話を増やさなくても,ベースモデルよりもタスク完了率が20.14%向上し,さらに大きなプロプライエタリモデルを超え,明確化中心のユーザエージェントインタラクションの可能性を実証している。
関連論文リスト
- Adaptive Multi-Agent Response Refinement in Conversational Systems [33.2240994465021]
大規模言語モデル (LLM) は人間のような応答を生成することで会話システムにおいて顕著な成功を収めた。
特にパーソナライズや特定の知識を考慮に入れる必要がある場合、それらは不足する可能性がある。
本稿では,各エージェントが各アスペクトに対して特定の役割を割り当てられるマルチエージェントフレームワークによる応答の精細化を提案する。
論文 参考訳(メタデータ) (2025-11-11T14:48:34Z) - In-Context Reinforcement Learning via Communicative World Models [49.00028802135605]
この研究は、2エージェントの緊急通信問題としてICRLを定式化する。
これは、転送可能な通信コンテキストを学ぶフレームワークであるCORALを紹介している。
実験により,本手法により,CAが試料効率を大幅に向上できることが実証された。
論文 参考訳(メタデータ) (2025-08-08T19:23:23Z) - ECLAIR: Enhanced Clarification for Interactive Responses in an Enterprise AI Assistant [10.954831867440332]
ECLAIR (Enhanced CLArification for Interactive Responses) は対話的曖昧化のための多エージェントフレームワークである。
ECLAIRは、カスタムエージェントが定義された対話的なプロセス、エージェントによるあいまいさ推論の実行、明確化質問の生成、最終応答の洗練にユーザフィードバックを活用することで、あいまいなユーザクエリの明確化を促進する。
実世界の顧客データでテストすると、ECLAIRは標準的な数ショット法と比較して、明確化質問生成の大幅な改善を示している。
論文 参考訳(メタデータ) (2025-03-19T23:13:34Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
ReSpActは、タスク解決のための推論、意思決定、動的対話をシームレスに統合するように設計されている。
タスク指向対話システム(MultiWOZ)や意思決定タスク(ALFWorld, WebShop)を含むユーザインタラクション設定におけるReSpActの評価を行う。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。