論文の概要: LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
- arxiv url: http://arxiv.org/abs/2407.05674v1
- Date: Mon, 8 Jul 2024 07:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 16:40:17.412340
- Title: LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
- Title(参考訳): LLMに基づくプログラマブルポリシーを用いたオープンドメイン統合タスクと知識アシスタント
- Authors: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam,
- Abstract要約: タスク指向対話エージェントを作成するためのプログラム可能なフレームワークを提案する。
KITAは、制御可能なエージェントポリシーを備えた信頼性の高い接地応答を提供する。
KITA は GPT-4 を26.1, 22.5, 52.4 で上回り, 実行精度, 対話動作精度, 目標達成率について比較した。
- 参考スコア(独自算出の注目度): 9.062774302155043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programming LLM-based knowledge and task assistants that faithfully conform to developer-provided policies is challenging. These agents must retrieve and provide consistent, accurate, and relevant information to address user's queries and needs. Yet such agents generate unfounded responses ("hallucinate"). Traditional dialogue trees can only handle a limited number of conversation flows, making them inherently brittle. To this end, we present KITA - a programmable framework for creating task-oriented conversational agents that are designed to handle complex user interactions. Unlike LLMs, KITA provides reliable grounded responses, with controllable agent policies through its expressive specification, KITA Worksheet. In contrast to dialog trees, it is resilient to diverse user queries, helpful with knowledge sources, and offers ease of programming policies through its declarative paradigm. Through a real-user study involving 62 participants, we show that KITA beats the GPT-4 with function calling baseline by 26.1, 22.5, and 52.4 points on execution accuracy, dialogue act accuracy, and goal completion rate, respectively. We also release 22 real-user conversations with KITA manually corrected to ensure accuracy.
- Abstract(参考訳): 開発者が提供するポリシーに忠実に準拠するLLMベースの知識とタスクアシスタントのプログラミングは難しい。
これらのエージェントは、ユーザのクエリやニーズに対処するために、一貫性があり、正確で、関連する情報を検索し、提供しなければなりません。
しかし、そのようなエージェントは根拠のない応答("hallucinate")を生成する。
従来の対話ツリーは限られた数の会話フローしか処理できないため、本質的に脆弱である。
この目的のために、複雑なユーザインタラクションを処理するように設計されたタスク指向の対話エージェントを作成するためのプログラミング可能なフレームワークKITAを提案する。
LLMと異なり、KITAは、表現力のある仕様であるKITA Worksheetを通じて、制御可能なエージェントポリシーを備えた、信頼できる地上応答を提供する。
ダイアログツリーとは対照的に、多様なユーザクエリに耐性があり、知識ソースに役立ち、宣言的パラダイムによるプログラミングポリシーの容易さを提供する。
62名の被験者を対象とする実ユーザ調査により,KITA は GPT-4 を26.1,22.5,52.4 点で上回り,実行精度,対話行動精度,目標達成率をそれぞれ上回った。
また,正確性を確保するため,KITAと22のリアルタイム会話を手作業で修正した。
関連論文リスト
- ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Exploring Interaction Patterns for Debugging: Enhancing Conversational
Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。
LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。
本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文 参考訳(メタデータ) (2024-02-09T07:44:27Z) - Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding [15.04954445749935]
メタプロンプティング(メタプロンプティング)は,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。
高レベルの命令を利用することで、メタプロンプトはLMをガイドし、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。
このプロセスの中心はLM自体であり、導体としての役割を持ち、シームレスなコミュニケーションと出力の効果的な統合を保証する。
論文 参考訳(メタデータ) (2024-01-23T18:22:19Z) - TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。
ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。
リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (2023-11-29T11:23:42Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。