論文の概要: A Zero-Shot approach to the Conversational Tree Search Task
- arxiv url: http://arxiv.org/abs/2410.05821v1
- Date: Tue, 08 Oct 2024 08:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:34:27.261927
- Title: A Zero-Shot approach to the Conversational Tree Search Task
- Title(参考訳): 会話木探索課題に対するゼロショットアプローチ
- Authors: Dirk Väth, Ngoc Thang Vu,
- Abstract要約: Conversational Tree Search (CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。
本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。
ゼロショット制御可能なCTSエージェントはシミュレーションにおいて最先端のCTSエージェントよりも優れていた。
- 参考スコア(独自算出の注目度): 28.392036110582723
- License:
- Abstract: In sensitive domains, such as legal or medial domains, the correctness of information given to users is critical. To address this, the recently introduced task Conversational Tree Search (CTS) provides a graph-based framework for controllable task-oriented dialog in sensitive domains. However, a big drawback of state-of-the-art CTS agents is their long training time, which is especially problematic as a new agent must be trained every time the associated domain graph is updated. The goal of this paper is to eliminate the need for training CTS agents altogether. To achieve this, we implement a novel LLM-based method for zero-shot, controllable CTS agents. We show that these agents significantly outperform state-of-the-art CTS agents (p<0.0001; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent performance in the wild, showing that our policy significantly (p<0.05; Barnard Exact) improves task-success compared to the state-of-the-art Reinforcement Learning-based CTS agent.
- Abstract(参考訳): 法律ドメインやメディアドメインのような機密ドメインでは、ユーザに与えられる情報の正しさが重要となる。
これを解決するために、最近導入されたタスク会話木探索(CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。
しかし、最先端のCTSエージェントの大きな欠点は、その長いトレーニング時間であり、特に、関連するドメイングラフが更新されるたびに新しいエージェントをトレーニングする必要があるため、問題となる。
本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。
これを実現するために、ゼロショット制御可能なCTSエージェントのための新しいLCMベースの手法を実装した。
これらのエージェントはシミュレーションにおいて最先端のCTSエージェント(p<0.0001; Barnard Exact test)よりも優れていた。
これはすべての利用可能なCTSドメインに一般化される。
最後に,現状の強化学習に基づく CTS エージェントと比較して,我々のポリシー (p<0.05; Barnard Exact) がタスクの精度を著しく向上することを示す。
関連論文リスト
- DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Learning to Communicate with Reinforcement Learning for an Adaptive
Traffic Control System [0.0]
適応的交通制御システム(ATCS)上での学習情報を用いた,コミュニケーションのない独立したQ-ラーニング(IQL)と識別可能なエージェント間ラーニング(DIAL)について検討する。
以上の結果から,DIALエージェントは,他のエージェントと関連する情報を共有できるため,トレーニング時間と最大報酬の両方において,独立したQ-Larnerよりも優れていた。
論文 参考訳(メタデータ) (2021-10-29T13:46:15Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-24T08:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。