論文の概要: SAGE: Steering and Refining Dialog Generation with State-Action Augmentation
- arxiv url: http://arxiv.org/abs/2503.03040v1
- Date: Tue, 04 Mar 2025 22:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:45.382446
- Title: SAGE: Steering and Refining Dialog Generation with State-Action Augmentation
- Title(参考訳): SAGE: State-Action Augmentationによるステアリングと精製ダイアログ生成
- Authors: Yizhe Zhang, Navdeep Jaitly,
- Abstract要約: 本稿では,潜時変数を用いた対話生成における長時間水平動作を制御するSAGEという新しい手法を提案する。
我々の手法の中核は、標準言語モデルの微調整を強化したState-Action Chain (SAC) である。
このアプローチでトレーニングされたモデルでは、感情的インテリジェンスメトリクスのパフォーマンスが向上していることを示す。
- 参考スコア(独自算出の注目度): 9.95917154889491
- License:
- Abstract: Recent advances in large language models have demonstrated impressive capabilities in task-oriented applications, yet building emotionally intelligent chatbots that can engage in natural, strategic conversations remains a challenge. We present a novel approach called SAGE that uses latent variables to control long-horizon behavior in dialogue generation. At the core of our method is the State-Action Chain (SAC), which augments standard language model fine-tuning by introducing latent variables that encapsulate emotional states and conversational strategies between dialogue turns. During inference, these variables are generated before each response, enabling coarse-grained control over dialogue progression while maintaining natural interaction patterns. We also introduce a self-improvement pipeline that leverages dialogue tree search, LLM-based reward modeling, and targeted fine-tuning to optimize conversational trajectories. Our experimental results show that models trained with this approach demonstrate improved performance in emotional intelligence metrics while maintaining strong capabilities on LLM benchmarks. The discrete nature of our latent variables facilitates search-based strategies and provides a foundation for future applications of reinforcement learning to dialogue systems, where learning can occur at the state level rather than the token level.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、タスク指向アプリケーションにおいて印象的な能力を示しているが、自然な戦略的会話に関わりうる感情的にインテリジェントなチャットボットを構築することは、依然として課題である。
本稿では,潜時変数を用いた対話生成における長時間水平動作を制御するSAGEという新しい手法を提案する。
本手法の核となるのは、感情状態をカプセル化した潜伏変数と対話のターン間の対話戦略を導入することで、標準言語モデルの微調整を強化するState-Action Chain (SAC) である。
推論中、これらの変数は各応答の前に生成され、自然な相互作用パターンを維持しながら対話の進行を粗く制御できる。
また,対話木探索,LLMに基づく報酬モデリング,対話軌跡の最適化を目的とした微調整などを活用した自己改善パイプラインも導入した。
実験結果から,LLMベンチマークの強い性能を維持しつつ,情緒的インテリジェンス指標の性能向上を示すモデルが得られた。
我々の潜伏変数の離散的な性質は、検索ベースの戦略を促進し、トークンレベルではなく状態レベルで学習を行う対話システムへの強化学習の将来の応用の基礎を提供する。
関連論文リスト
- StyleChat: Learning Recitation-Augmented Memory in LLMs for Stylized Dialogue Generation [43.29667566560533]
LLM(Large Language Models)の生成能力を活用することで38のスタイルを持つスタイル化された対話データセットであるStyleEvalを導入する。
本稿では,多タスク型学習戦略と再帰型メモリ戦略を通したスタイル化対話フレームワークであるStyleChatを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:26:18Z) - Turn-taking and Backchannel Prediction with Acoustic and Large Language
Model Fusion [38.78341787348164]
大規模言語モデル(LLM)を用いたニューラル音響モデルを用いた音声対話におけるターンテイクとバックチャネル位置の連続予測手法を提案する。
Switchboardの人間と人間の会話データセットの実験は、我々のアプローチが単一のモダリティでベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T08:59:07Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Improving a sequence-to-sequence nlp model using a reinforcement
learning policy algorithm [0.0]
対話生成の現在のニューラルネットワークモデルは、おしゃべりエージェントの回答を生成する上で非常に有望である。
しかし、彼らは発話を1度ずつ予測し、将来の結果に対する彼らの影響を無視している。
本研究は,対話の長期的成功に基づくニューラルな会話モデル構築に向けた予備的なステップを記念するものである。
論文 参考訳(メタデータ) (2022-12-28T22:46:57Z) - Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning [35.67318830455459]
我々は、強化学習(RL)を用いて、ロボットの対話能力を大規模に活用するリアルタイムかつオープンな対話システムを開発した。
我々の作業は、動的行動空間に特に適するRL技術とSOTA言語モデルを用いて生成された会話状態の簡潔な埋め込みをペアリングする。
論文 参考訳(メタデータ) (2022-07-25T16:12:33Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。