Fugu-MT 論文翻訳(概要): Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training

論文の概要: Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training

arxiv url: http://arxiv.org/abs/2406.00222v1
Date: Fri, 31 May 2024 22:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 08:13:57.163372
Title: Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training
Title（参考訳）: 行動に基づくコントラスト自己学習によるマルチターン会話の学習
Authors: Maximillian Chen, Ruoxi Sun, Sercan Ö. Arık, Tomas Pfister,
Abstract要約: アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。 ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
参考スコア（独自算出の注目度）: 33.57497419019826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) aligned through reinforcement learning from human feedback (RLHF) have quickly become one of the dominant paradigms for building intelligent conversational assistant agents. However, despite their strong performance across many benchmarks, LLM-based agents still lack conversational skills such as disambiguation: when generalized assistants are faced with ambiguity, they often overhedge or implicitly guess users' ground-truth intents rather than asking clarification questions, and under task-specific settings, high-quality conversation samples are often limited, affecting models' ability to learn optimal dialogue action policies. We propose Action-Based Contrastive Self-Training (henceforth ACT), a quasi-online preference optimization algorithm based on Direct Preference Optimization (DPO) which allows for sample-efficient dialogue policy learning in multi-turn conversation. We demonstrate ACT's efficacy under sample-efficient conditions in three difficult conversational tasks: tabular-grounded question-answering, machine reading comprehension, and AmbigSQL, a novel task for disambiguating information-seeking requests for text-to-SQL generation. Additionally, we propose evaluating LLMs' ability to function as conversational agents by examining whether they can implicitly recognize and reason about ambiguity in conversation. ACT demonstrates substantial conversation modeling improvements over standard approaches to supervised fine-tuning and DPO.
Abstract（参考訳）: ヒューマンフィードバック(RLHF)からの強化学習を通じて整列された大規模言語モデル(LLM)は、インテリジェントな会話アシスタントエージェントを構築する上で、急速に支配的なパラダイムの1つになっている。一般化されたアシスタントがあいまいさに直面している場合、彼らはしばしば、明確化の質問をするのではなく、ユーザーの根底からの意図を誇張または暗黙的に推測し、タスク固有の設定の下では、高品質な会話サンプルは制限され、モデルが最適な対話アクションポリシーを学習する能力に影響を与える。提案手法は, DPO(Direct Preference Optimization)に基づく準オンライン選好最適化アルゴリズムであり, マルチターン会話において, サンプル効率のよい対話ポリシー学習を可能にする。本稿では,テキストからSQL生成への情報探索要求を曖昧にするための新しいタスクであるAmbigSQLと,表在的質問応答,機械読解,3つの難解な会話課題において,ACTの有効性を示す。さらに,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。 ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。

関連論文リスト

From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T23:05:47Z)
Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-04T15:47:47Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues [8.036117602566074]
RAD-Benchは、検索後のマルチターン対話における大規模言語モデルの能力を評価するために設計されたベンチマークである。また, LLM の評価結果から, モデルの性能が劣化し, 追加の条件や制約が適用されることが判明した。
論文参考訳（メタデータ） (2024-09-19T08:26:45Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Selective Prompting Tuning for Personalized Conversations with LLMs [31.28284591597932]
textbfSelective textbfPrompt textbfTuning (SPT)を提案する。 SPTは、他の重要なパフォーマンス指標の改善とともに、応答の多様性を最大90%向上させる。
論文参考訳（メタデータ） (2024-06-26T09:03:52Z)
PerkwE_COQA: Enhanced Persian Conversational Question Answering by combining contextual keyword extraction with Large Language Models [0.8057006406834466]
本稿では,ペルシア語対話型質問応答システム(CQA)の性能向上のための新しい手法を提案する。 LLM(Large Language Models)と文脈キーワード抽出の長所を組み合わせる。提案手法は,暗黙的な質問を効果的に処理し,文脈に関連のある回答を提示し,会話の文脈に大きく依存する複雑な質問に対処する。
論文参考訳（メタデータ） (2024-04-08T11:14:58Z)
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。 RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。 GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文参考訳（メタデータ） (2024-02-27T05:37:10Z)
Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。従来は検索キーやクエリとして生の対話コンテキストを使用していた。会話のテキスト要約に基づいて会話検索を行う。 LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文参考訳（メタデータ） (2024-02-20T14:31:17Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。 LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文参考訳（メタデータ） (2023-05-23T02:49:35Z)
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-19T16:27:43Z)
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-09-14T08:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。