Fugu-MT 論文翻訳(概要): A Zero-Shot approach to the Conversational Tree Search Task

論文の概要: A Zero-Shot approach to the Conversational Tree Search Task

arxiv url: http://arxiv.org/abs/2410.05821v1
Date: Tue, 8 Oct 2024 08:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 12:39:56.679964
Title: A Zero-Shot approach to the Conversational Tree Search Task
Title（参考訳）: 会話木探索課題に対するゼロショットアプローチ
Authors: Dirk Väth, Ngoc Thang Vu,
Abstract要約: Conversational Tree Search (CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。ゼロショット制御可能なCTSエージェントはシミュレーションにおいて最先端のCTSエージェントよりも優れていた。
参考スコア（独自算出の注目度）: 28.392036110582723
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In sensitive domains, such as legal or medial domains, the correctness of information given to users is critical. To address this, the recently introduced task Conversational Tree Search (CTS) provides a graph-based framework for controllable task-oriented dialog in sensitive domains. However, a big drawback of state-of-the-art CTS agents is their long training time, which is especially problematic as a new agent must be trained every time the associated domain graph is updated. The goal of this paper is to eliminate the need for training CTS agents altogether. To achieve this, we implement a novel LLM-based method for zero-shot, controllable CTS agents. We show that these agents significantly outperform state-of-the-art CTS agents (p<0.0001; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent performance in the wild, showing that our policy significantly (p<0.05; Barnard Exact) improves task-success compared to the state-of-the-art Reinforcement Learning-based CTS agent.
Abstract（参考訳）: 法律ドメインやメディアドメインのような機密ドメインでは、ユーザに与えられる情報の正しさが重要となる。これを解決するために、最近導入されたタスク会話木探索(CTS)は、機密ドメインで制御可能なタスク指向ダイアログのためのグラフベースのフレームワークを提供する。しかし、最先端のCTSエージェントの大きな欠点は、その長いトレーニング時間であり、特に、関連するドメイングラフが更新されるたびに新しいエージェントをトレーニングする必要があるため、問題となる。本研究の目的は、CTSエージェントを全面的に訓練する必要性をなくすことである。これを実現するために、ゼロショット制御可能なCTSエージェントのための新しいLCMベースの手法を実装した。これらのエージェントはシミュレーションにおいて最先端のCTSエージェント(p<0.0001; Barnard Exact test)よりも優れていた。これはすべての利用可能なCTSドメインに一般化される。最後に,現状の強化学習に基づく CTS エージェントと比較して,我々のポリシー (p<0.05; Barnard Exact) がタスクの精度を著しく向上することを示す。

関連論文リスト

From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-21T23:05:47Z)
Evaluating and Enhancing Out-of-Domain Generalization of Task-Oriented Dialog Systems for Task Completion without Turn-level Dialog Annotations [2.453775887722866]
本研究は,大規模言語モデル(LLM)を自然言語ダイアログのみに微調整してToDタスクを実行できるかどうかを,このようなアノテーションを必要とせずに検討する。ターンレベルのアノテーションを使わずに微調整されたモデルでは、一貫性のある適切な応答が生成される。提案するZeroToDは,API呼び出し精度と全体的なタスク完了率を向上させるために,スキーマ拡張機構を組み込んだフレームワークである。
論文参考訳（メタデータ） (2025-02-18T22:10:51Z)
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文参考訳（メタデータ） (2024-10-26T22:45:56Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文参考訳（メタデータ） (2024-05-31T22:44:48Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Choice Fusion as Knowledge for Zero-Shot Dialogue State Tracking [5.691339955497443]
ゼロショットの対話状態トラッキング(DST)は、望ましいドメインをトレーニングすることなく、タスク指向の対話におけるユーザの要求を追跡する。ドメインに依存しないQAデータセットに基づいて訓練し、ゼロショット対話状態生成のための知識としてスロット値の候補選択を直接利用するCoFunDSTを提案する。提案手法は,MultiWOZ 2.1 における既存のゼロショット DST アプローチと比較して,精度が向上する。
論文参考訳（メタデータ） (2023-02-25T07:32:04Z)
DiSTRICT: Dialogue State Tracking with Retriever Driven In-Context Tuning [7.5700317050237365]
対話状態追跡(DST)のための一般化可能なインコンテキストチューニング手法であるDiSTRICTを提案する。 DSTRICTは、手作りのテンプレートを使わずにモデルを微調整するために、与えられた対話のための非常に関連性の高いトレーニング例を検索する。 MultiWOZベンチマークデータセットによる実験では、DiSTRICTは、さまざまなゼロショットおよび少数ショット設定において、既存のアプローチよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2022-12-06T09:40:15Z)
Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2022-11-18T09:00:25Z)
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。 GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文参考訳（メタデータ） (2022-06-22T18:19:32Z)
TASAC: a twin-actor reinforcement learning framework with stochastic policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文参考訳（メタデータ） (2022-04-22T13:00:51Z)
In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文参考訳（メタデータ） (2022-03-16T11:58:24Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2021-11-29T15:24:36Z)
Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文参考訳（メタデータ） (2021-02-18T13:49:28Z)
RADDLE: An Evaluation Benchmark and Analysis Platform for Robust Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。 RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-29T08:58:49Z)
RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文参考訳（メタデータ） (2020-11-13T11:07:08Z)
Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。 PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文参考訳（メタデータ） (2020-07-24T08:14:41Z)
Meta Dialogue Policy Learning [58.045067703675095]
我々は、ドメイン間の共有可能な低レベル信号を利用するために、Deep Transferable Q-Network (DTQN)を提案する。状態と行動表現空間をこれらの低レベル成分に対応する特徴部分空間に分解する。実験において,本モデルは,成功率と対話効率の両方の観点から,ベースラインモデルより優れている。
論文参考訳（メタデータ） (2020-06-03T23:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。