論文の概要: Universal Post-Processing Networks for Joint Optimization of Modules in Task-Oriented Dialogue Systems
- arxiv url: http://arxiv.org/abs/2502.00747v1
- Date: Sun, 02 Feb 2025 10:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:40.320204
- Title: Universal Post-Processing Networks for Joint Optimization of Modules in Task-Oriented Dialogue Systems
- Title(参考訳): タスク指向対話システムにおけるモジュールの協調最適化のためのユニバーサル後処理ネットワーク
- Authors: Atsumoto Ohashi, Ryuichiro Higashinaka,
- Abstract要約: ユニバーサル後処理ネットワーク(UniPPN)を用いた全モジュールの出力を後処理する共同最適化手法を提案する。
モジュールレベルのマルコフ決定プロセスを利用する我々のRLアルゴリズムは,各モジュールの細粒度値と利点推定を可能にし,全モジュールの出力を後処理するための共同学習を安定化する。
- 参考スコア(独自算出の注目度): 3.8443430569753034
- License:
- Abstract: Post-processing networks (PPNs) are components that modify the outputs of arbitrary modules in task-oriented dialogue systems and are optimized using reinforcement learning (RL) to improve the overall task completion capability of the system. However, previous PPN-based approaches have been limited to handling only a subset of modules within a system, which poses a significant limitation in improving the system performance. In this study, we propose a joint optimization method for post-processing the outputs of all modules using universal post-processing networks (UniPPNs), which are language-model-based networks that can modify the outputs of arbitrary modules in a system as a sequence-transformation task. Moreover, our RL algorithm, which employs a module-level Markov decision process, enables fine-grained value and advantage estimation for each module, thereby stabilizing joint learning for post-processing the outputs of all modules. Through both simulation-based and human evaluation experiments using the MultiWOZ dataset, we demonstrated that UniPPN outperforms conventional PPNs in the task completion capability of task-oriented dialogue systems.
- Abstract(参考訳): 後処理ネットワーク(PPN)はタスク指向対話システムにおける任意のモジュールの出力を変更するコンポーネントであり、システム全体のタスク完了能力を改善するために強化学習(RL)を用いて最適化されている。
しかし、従来のPPNベースのアプローチは、システム内のモジュールのサブセットのみを扱うことに制限されており、システムの性能改善に重大な制限が課されている。
本研究では,システム内の任意のモジュールの出力をシーケンス変換タスクとして変更可能な言語モデルベースのネットワークであるユニバーサル後処理ネットワーク(UniPPN)を用いて,全てのモジュールの出力を後処理する共同最適化手法を提案する。
さらに,モジュールレベルのマルコフ決定プロセスを用いたRLアルゴリズムにより,各モジュールの細粒度値と利点推定が可能となり,全モジュールの出力を後処理するための共同学習が安定化される。
シミュレーションに基づくMultiWOZデータセットを用いた人体評価実験により,タスク指向対話システムのタスク完了能力において,UniPPNが従来のPPNよりも優れていることを示した。
関連論文リスト
- Optimizing Model Selection for Compound AI Systems [76.69936664916061]
本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。
1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。
すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
論文 参考訳(メタデータ) (2025-02-20T18:36:25Z) - Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents [37.69474034158126]
CapaBenchは、協調ゲーム理論のShapley Valueに基づく評価フレームワークである。
エージェントのアーキテクチャ内の個々のモジュールとその相互作用の限界影響を測定する。
CapabilityBenchは、コンポーネントレベルの評価と全体的システムアセスメントのギャップを埋める。
論文 参考訳(メタデータ) (2025-02-01T18:07:34Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - Post-processing Networks: Method for Optimizing Pipeline Task-oriented
Dialogue Systems using Reinforcement Learning [2.421451893574618]
本稿では,対話性能向上のための任意の手法で実装されたモジュールからなるパイプラインシステムを最適化する手法を提案する。
本手法では,各モジュールの出力を後処理するシステム内に,後処理ネットワーク(PPN)と呼ばれるニューラルネットワークコンポーネントを設置する。
全てのPPNは、強化学習を用いてシステム全体の対話性能を改善するために更新される。
論文 参考訳(メタデータ) (2022-07-25T13:22:40Z) - Proximal Policy Optimization-based Transmit Beamforming and Phase-shift
Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。
透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文 参考訳(メタデータ) (2022-03-21T09:15:18Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Determinantal Point Process as an alternative to NMS [24.802857965503982]
非最大抑圧(NMS)に代わるサブセットポイントプロセス(DPP)は、すべての最先端オブジェクト検出フレームワークにおいて不可欠なステップとなっている。
我々はNMSをサブセット選択問題とし、DPPライクなフレームワークを直接組み込むことでオブジェクト検出システム全体の性能を向上させることができると仮定する。
論文 参考訳(メタデータ) (2020-08-26T09:06:11Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。