論文の概要: Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training
- arxiv url: http://arxiv.org/abs/2406.00222v1
- Date: Fri, 31 May 2024 22:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:13:57.163372
- Title: Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training
- Title(参考訳): 行動に基づくコントラスト自己学習によるマルチターン会話の学習
- Authors: Maximillian Chen, Ruoxi Sun, Sercan Ö. Arık, Tomas Pfister,
- Abstract要約: アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
- 参考スコア(独自算出の注目度): 33.57497419019826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) aligned through reinforcement learning from human feedback (RLHF) have quickly become one of the dominant paradigms for building intelligent conversational assistant agents. However, despite their strong performance across many benchmarks, LLM-based agents still lack conversational skills such as disambiguation: when generalized assistants are faced with ambiguity, they often overhedge or implicitly guess users' ground-truth intents rather than asking clarification questions, and under task-specific settings, high-quality conversation samples are often limited, affecting models' ability to learn optimal dialogue action policies. We propose Action-Based Contrastive Self-Training (henceforth ACT), a quasi-online preference optimization algorithm based on Direct Preference Optimization (DPO) which allows for sample-efficient dialogue policy learning in multi-turn conversation. We demonstrate ACT's efficacy under sample-efficient conditions in three difficult conversational tasks: tabular-grounded question-answering, machine reading comprehension, and AmbigSQL, a novel task for disambiguating information-seeking requests for text-to-SQL generation. Additionally, we propose evaluating LLMs' ability to function as conversational agents by examining whether they can implicitly recognize and reason about ambiguity in conversation. ACT demonstrates substantial conversation modeling improvements over standard approaches to supervised fine-tuning and DPO.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習を通じて整列された大規模言語モデル(LLM)は、インテリジェントな会話アシスタントエージェントを構築する上で、急速に支配的なパラダイムの1つになっている。
一般化されたアシスタントがあいまいさに直面している場合、彼らはしばしば、明確化の質問をするのではなく、ユーザーの根底からの意図を誇張または暗黙的に推測し、タスク固有の設定の下では、高品質な会話サンプルは制限され、モデルが最適な対話アクションポリシーを学習する能力に影響を与える。
提案手法は, DPO(Direct Preference Optimization)に基づく準オンライン選好最適化アルゴリズムであり, マルチターン会話において, サンプル効率のよい対話ポリシー学習を可能にする。
本稿では,テキストからSQL生成への情報探索要求を曖昧にするための新しいタスクであるAmbigSQLと,表在的質問応答,機械読解,3つの難解な会話課題において,ACTの有効性を示す。
さらに,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。
また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文 参考訳(メタデータ) (2024-09-19T08:26:45Z) - Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。
SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:03:52Z) - PerkwE_COQA: Enhanced Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models [0.8057006406834466]
本稿では,ペルシア語対話型質問応答システム(CQA)の性能向上のための新しい手法を提案する。
LLM(Large Language Models)と文脈キーワード抽出の長所を組み合わせる。
提案手法は,暗黙的な質問を効果的に処理し,文脈に関連のある回答を提示し,会話の文脈に大きく依存する複雑な質問に対処する。
論文 参考訳(メタデータ) (2024-04-08T11:14:58Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。