論文の概要: Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets
- arxiv url: http://arxiv.org/abs/2407.05674v3
- Date: Tue, 17 Jun 2025 17:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:19.131847
- Title: Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets
- Title(参考訳): 宣言型ジェニーワークシートを用いた制御可能で信頼性の高いタスク指向会話エージェント
- Authors: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam,
- Abstract要約: 我々は、タスク指向の会話エージェントを作成するためのフレームワークGenieを紹介する。
高度な対話状態管理を通じて、信頼性の高い地上応答を提供する。
Genieで構築されたエージェントは、複雑な論理対話データセット上でSOTAメソッドより優れている。
- 参考スコア(独自算出の注目度): 9.062774302155043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models can carry out human-like conversations in diverse settings, responding to user requests for tasks and knowledge. However, existing conversational agents implemented with LLMs often struggle with hallucination, following instructions with conditional logic, and integrating knowledge from different sources. These shortcomings compromise the agents' effectiveness, rendering them unsuitable for deployment. To address these challenges, we introduce Genie, a programmable framework for creating knowledge-intensive task-oriented conversational agents. Genie can handle involved interactions and answer complex queries. Unlike LLMs, it delivers reliable, grounded responses through advanced dialogue state management and supports controllable agent policies via its declarative specification -- Genie Worksheet. This is achieved through an algorithmic runtime system that implements the developer-supplied policy, limiting LLMs to (1) parse user input using a succinct conversational history, and (2) generate responses according to supplied context. Agents built with Genie outperform SOTA methods on complex logic dialogue datasets. We conducted a user study with 62 participants on three real-life applications: restaurant reservations with Yelp, as well as ticket submission and course enrollment for university students. Genie agents with GPT-4 Turbo outperformed the GPT-4 Turbo agents with function calling, improving goal completion rates from 21.8% to 82.8% across three real-world tasks.
- Abstract(参考訳): 大規模言語モデルは、タスクや知識に対するユーザの要求に応じて、多様な設定でヒューマンライクな会話を実行することができる。
しかしながら、LLMで実装された既存の会話エージェントは、条件論理による指示に従い、異なるソースからの知識を統合するなど、幻覚に苦しむことが多い。
これらの欠点はエージェントの有効性を損なうため、デプロイには適さない。
これらの課題に対処するために、知識集約型タスク指向会話エージェントを作成するためのプログラム可能なフレームワークGenieを紹介する。
Genieは関連するインタラクションを処理し、複雑なクエリに応答することができる。
LLMとは違って、高度な対話状態管理を通じて信頼性の高い地上応答を提供し、宣言的な仕様であるGenie Worksheetを通じて制御可能なエージェントポリシーをサポートする。
これは、開発者が提供するポリシーを実装したアルゴリズムランタイムシステムによって実現され、(1)簡潔な会話履歴を用いたユーザ入力のパースにLSMを制限し、(2)供給されたコンテキストに応じて応答を生成する。
Genieで構築されたエージェントは、複雑な論理対話データセット上でSOTAメソッドより優れている。
実生活の3つの応用として,Yelpとのレストラン予約,チケットの申し込み,大学生のコース登録を62名を対象に実施した。
GPT-4TurboのジェニーエージェントはGPT-4Turboエージェントよりも性能が優れ、実際の3つのタスクでゴール完了率が21.8%から82.8%に向上した。
関連論文リスト
- VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。
Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。
GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-15T13:45:40Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Exploring Interaction Patterns for Debugging: Enhancing Conversational
Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。
LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。
本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文 参考訳(メタデータ) (2024-02-09T07:44:27Z) - Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding [15.04954445749935]
メタプロンプティング(メタプロンプティング)は,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。
高レベルの命令を利用することで、メタプロンプトはLMをガイドし、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。
このプロセスの中心はLM自体であり、導体としての役割を持ち、シームレスなコミュニケーションと出力の効果的な統合を保証する。
論文 参考訳(メタデータ) (2024-01-23T18:22:19Z) - TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。
ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。
リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (2023-11-29T11:23:42Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。