Fugu-MT 論文翻訳(概要): Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable Reward Function

論文の概要: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable Reward Function

arxiv url: http://arxiv.org/abs/2303.13797v1
Date: Fri, 24 Mar 2023 04:33:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 15:44:23.429909
Title: Personalizing Task-oriented Dialog Systems via Zero-shot Generalizable Reward Function
Title（参考訳）: ゼロショット一般化リワード関数によるタスク指向対話システムのパーソナライズ
Authors: A.B. Siddique, M.H. Maqbool, Kshitija Taywade, Hassan Foroosh
Abstract要約: タスク指向対話システムをパーソナライズするための新しいフレームワークであるP-ToDを提案する。 P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。我々の新しい報酬関数は、見当たらないプロファイルであっても生成した応答の質を定量化できる。
参考スコア（独自算出の注目度）: 19.652303125864204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Task-oriented dialog systems enable users to accomplish tasks using natural language. State-of-the-art systems respond to users in the same way regardless of their personalities, although personalizing dialogues can lead to higher levels of adoption and better user experiences. Building personalized dialog systems is an important, yet challenging endeavor and only a handful of works took on the challenge. Most existing works rely on supervised learning approaches and require laborious and expensive labeled training data for each user profile. Additionally, collecting and labeling data for each user profile is virtually impossible. In this work, we propose a novel framework, P-ToD, to personalize task-oriented dialog systems capable of adapting to a wide range of user profiles in an unsupervised fashion using a zero-shot generalizable reward function. P-ToD uses a pre-trained GPT-2 as a backbone model and works in three phases. Phase one performs task-specific training. Phase two kicks off unsupervised personalization by leveraging the proximal policy optimization algorithm that performs policy gradients guided by the zero-shot generalizable reward function. Our novel reward function can quantify the quality of the generated responses even for unseen profiles. The optional final phase fine-tunes the personalized model using a few labeled training examples. We conduct extensive experimental analysis using the personalized bAbI dialogue benchmark for five tasks and up to 180 diverse user profiles. The experimental results demonstrate that P-ToD, even when it had access to zero labeled examples, outperforms state-of-the-art supervised personalization models and achieves competitive performance on BLEU and ROUGE metrics when compared to a strong fully-supervised GPT-2 baseline
Abstract（参考訳）: タスク指向対話システムは、自然言語を使ってタスクを達成できる。最新システムは、個性に関係なくユーザーに対して同じように反応するが、対話のパーソナライズは、より高いレベルの採用とより良いユーザーエクスペリエンスをもたらす可能性がある。パーソナライズされたダイアログシステムの構築は重要だが、挑戦的な取り組みであり、その課題にはほんの一握りの作業しかなかった。既存の作業の多くは教師付き学習アプローチに依存しており、各ユーザプロファイルに対して、厳格で高価なラベル付きトレーニングデータを必要とする。さらに、各ユーザプロファイルのデータ収集とラベル付けは事実上不可能である。本研究では、ゼロショット一般化報酬関数を用いて、広範囲のユーザプロファイルに適応可能なタスク指向対話システムを、教師なしでパーソナライズする新しいフレームワークP-ToDを提案する。 P-ToDは、トレーニング済みのGPT-2をバックボーンモデルとして使用し、3つのフェーズで動作する。第1段階はタスク固有の訓練を行う。フェーズ2は、ゼロショット一般化報酬関数で導かれるポリシー勾配を実行する近似ポリシー最適化アルゴリズムを活用することにより、教師なしのパーソナライゼーションを開始する。新たな報酬機能は,未発見のプロファイルにおいても生成した応答の品質を定量化することができる。オプションの最終フェーズは、いくつかのラベル付きトレーニング例を使用してパーソナライズされたモデルを微調整する。パーソナライズされたbAbIダイアログベンチマークを用いて,5つのタスクと最大180種類のユーザプロファイルに対して,広範な実験分析を行う。実験結果から,P-ToDはラベル付きサンプルがゼロであっても,最先端の教師付きパーソナライゼーションモデルより優れ,強力な完全教師付きGPT-2ベースラインと比較してBLEUおよびROUGEメトリクス上での競争性能が向上することが示された。

関連論文リスト

Synthetic Interaction Data for Scalable Personalization in Large Language Models [67.31884245564086]
本稿ではPersonaGymという高忠実な合成データ生成フレームワークを紹介する。パーソナライゼーションを静的なペルソナ-参照ペアとして扱う以前の作業とは異なり、PersonaGymは動的な選好プロセスをモデル化する。我々は,高忠実度マルチターンパーソナライズされたインタラクショントラジェクトリの大規模かつ高品質で多様な合成データセットであるPersonaAtlasをリリースする。
論文参考訳（メタデータ） (2026-02-12T20:41:22Z)
CURP: Codebook-based Continuous User Representation for Personalized Generation with LLMs [60.867541073274715]
双方向ユーザエンコーダと離散プロトタイプコードブックを用いて,多次元ユーザ特性を抽出する新しいフレームワークCURPを提案する。この設計により、少数のトレーニング可能なパラメータでプラグアンドプレイのパーソナライズが可能となる。 CURPは,強いベースラインに比べて優れた性能と一般化を実現していることを示す。
論文参考訳（メタデータ） (2026-01-31T14:13:06Z)
Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。 PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文参考訳（メタデータ） (2025-09-29T17:58:45Z)
PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文参考訳（メタデータ） (2025-06-06T17:29:49Z)
Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning [31.785493263807684]
本稿では,ユーザ特性とフィードバックをモデル化する内在的ユーザワールドモデルを組み込んだUDP(User-Tailored Dialogue Policy Planning)フレームワークを提案する。 UDP は,(1) ユーザプロファイルを動的に推測するために拡散モデルを用いたユーザペルソナポートレイティング,(2) ユーザフィードバック予測, ブラウン橋にインスパイアされた予測器を用いたユーザ反応予測,(3) ユーザ対応型ポリシープランニング, これらの洞察の統合による応答戦略の最適化の3段階で動作する。
論文参考訳（メタデータ） (2025-04-18T11:48:55Z)
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
ユーザシミュレータは、対話システムとの人間のインタラクションを複製するのに不可欠である。本研究では,人間と機械の会話から暗黙のユーザプロファイルを推論するフレームワークである暗黙のプロファイル(USP)を用いたユーザシミュレータを提案する。 USPは、一貫性において同等のパフォーマンスを達成しつつ、信頼性と多様性の観点から、強力なベースラインを上回ります。
論文参考訳（メタデータ） (2025-02-26T09:26:54Z)
Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-04T01:46:49Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文参考訳（メタデータ） (2024-10-09T17:46:53Z)
PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文参考訳（メタデータ） (2024-07-25T14:36:18Z)
Step-Back Profiling: Distilling User History for Personalized Scientific Writing [50.481041470669766]
大きな言語モデル(LLM)は、さまざまな自然言語処理タスクに優れていますが、個人向けにパーソナライズされたコンテンツを生成するのに苦労しています。ユーザ履歴を簡潔なプロファイルに抽出することで,LSMをパーソナライズするためのSTEP-BACK ProFIlingを導入する。本手法は,一般パーソナライゼーションベンチマークにおいて,ベースラインを最大3.6ポイント向上させる。
論文参考訳（メタデータ） (2024-06-20T12:58:26Z)
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文参考訳（メタデータ） (2024-03-15T20:21:31Z)
Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文参考訳（メタデータ） (2024-02-06T04:18:58Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation [17.41434948048325]
我々は,現実的なシナリオに対して,TODシステムがいかに脆弱であるかを明らかにするために,インタラクティブなユーザスタディを実施している。我々の研究は、オープンゴール設定での会話がシステムの破滅的な失敗につながることを明らかにした。我々は,システムの能力を超えても,システムがユーザの要求を処理するふりをする,新たな“予測”行動を発見した。
論文参考訳（メタデータ） (2023-05-23T09:24:53Z)
Task-Optimized Adapters for an End-to-End Task-Oriented Dialogue System [0.0]
本稿では,タスク毎に個別に学習し,事前学習したネットワークの固定層に少数のパラメータを追加するタスク・ド・アダプタを用いたエンドツーエンドTODシステムを提案する。提案手法はモデルに依存しない手法であり,プロンプトを使わずに入力データのみをプロンプトチューニングする必要がない。
論文参考訳（メタデータ） (2023-05-04T00:17:49Z)
MCP: Self-supervised Pre-training for Personalized Chatbots with Multi-level Contrastive Sampling [18.40883902610959]
個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師型学習フレームワークを提案する。具体的には、ユーザダイアログ履歴に隠された教師付き信号を利用するために、対照的なサンプリング手法を適用する。 2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。
論文参考訳（メタデータ） (2022-10-17T05:16:23Z)
A Cooperative Memory Network for Personalized Task-oriented Dialogue Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。 CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文参考訳（メタデータ） (2021-02-16T18:05:54Z)
RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。 RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-29T08:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。