論文の概要: A Zero-Shot approach to the Conversational Tree Search Task
- arxiv url: http://arxiv.org/abs/2410.05821v1
- Date: Tue, 8 Oct 2024 08:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:39:56.679964
- Title: A Zero-Shot approach to the Conversational Tree Search Task
- Title(参考訳): 会話木探索課題に対するゼロショットアプローチ
- Authors: Dirk Väth, Ngoc Thang Vu,
- Abstract要約: Conversational Tree Search (CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。
本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。
ゼロショット制御可能なCTSエージェントはシミュレーションにおいて最先端のCTSエージェントよりも優れていた。
- 参考スコア(独自算出の注目度): 28.392036110582723
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In sensitive domains, such as legal or medial domains, the correctness of information given to users is critical. To address this, the recently introduced task Conversational Tree Search (CTS) provides a graph-based framework for controllable task-oriented dialog in sensitive domains. However, a big drawback of state-of-the-art CTS agents is their long training time, which is especially problematic as a new agent must be trained every time the associated domain graph is updated. The goal of this paper is to eliminate the need for training CTS agents altogether. To achieve this, we implement a novel LLM-based method for zero-shot, controllable CTS agents. We show that these agents significantly outperform state-of-the-art CTS agents (p<0.0001; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent performance in the wild, showing that our policy significantly (p<0.05; Barnard Exact) improves task-success compared to the state-of-the-art Reinforcement Learning-based CTS agent.
- Abstract(参考訳): 法律ドメインやメディアドメインのような機密ドメインでは、ユーザに与えられる情報の正しさが重要となる。
これを解決するために、最近導入されたタスク会話木探索(CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。
しかし、最先端のCTSエージェントの大きな欠点は、その長いトレーニング時間であり、特に、関連するドメイングラフが更新されるたびに新しいエージェントをトレーニングする必要があるため、問題となる。
本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。
これを実現するために、ゼロショット制御可能なCTSエージェントのための新しいLCMベースの手法を実装した。
これらのエージェントはシミュレーションにおいて最先端のCTSエージェント(p<0.0001; Barnard Exact test)よりも優れていた。
これはすべての利用可能なCTSドメインに一般化される。
最後に,現状の強化学習に基づく CTS エージェントと比較して,我々のポリシー (p<0.05; Barnard Exact) がタスクの精度を著しく向上することを示す。
関連論文リスト
- SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-24T08:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。