論文の概要: LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
- arxiv url: http://arxiv.org/abs/2407.05674v1
- Date: Mon, 8 Jul 2024 07:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-09 16:40:17.412340
- Title: LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies
- Title(参考訳): LLMに基づくプログラマブルポリシーを用いたオープンドメイン統合タスクと知識アシスタント
- Authors: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam,
- Abstract要約: タスク指向対話エージェントを作成するためのプログラム可能なフレームワークを提案する。
KITAは、制御可能なエージェントポリシーを備えた信頼性の高い接地応答を提供する。
KITA は GPT-4 を26.1, 22.5, 52.4 で上回り, 実行精度, 対話動作精度, 目標達成率について比較した。
- 参考スコア(独自算出の注目度): 9.062774302155043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programming LLM-based knowledge and task assistants that faithfully conform to developer-provided policies is challenging. These agents must retrieve and provide consistent, accurate, and relevant information to address user's queries and needs. Yet such agents generate unfounded responses ("hallucinate"). Traditional dialogue trees can only handle a limited number of conversation flows, making them inherently brittle. To this end, we present KITA - a programmable framework for creating task-oriented conversational agents that are designed to handle complex user interactions. Unlike LLMs, KITA provides reliable grounded responses, with controllable agent policies through its expressive specification, KITA Worksheet. In contrast to dialog trees, it is resilient to diverse user queries, helpful with knowledge sources, and offers ease of programming policies through its declarative paradigm. Through a real-user study involving 62 participants, we show that KITA beats the GPT-4 with function calling baseline by 26.1, 22.5, and 52.4 points on execution accuracy, dialogue act accuracy, and goal completion rate, respectively. We also release 22 real-user conversations with KITA manually corrected to ensure accuracy.
- Abstract(参考訳): 開発者が提供するポリシーに忠実に準拠するLLMベースの知識とタスクアシスタントのプログラミングは難しい。
これらのエージェントは、ユーザのクエリやニーズに対処するために、一貫性があり、正確で、関連する情報を検索し、提供しなければなりません。
しかし、そのようなエージェントは根拠のない応答("hallucinate")を生成する。
従来の対話ツリーは限られた数の会話フローしか処理できないため、本質的に脆弱である。
この目的のために、複雑なユーザインタラクションを処理するように設計されたタスク指向の対話エージェントを作成するためのプログラミング可能なフレームワークKITAを提案する。
LLMと異なり、KITAは、表現力のある仕様であるKITA Worksheetを通じて、制御可能なエージェントポリシーを備えた、信頼できる地上応答を提供する。
ダイアログツリーとは対照的に、多様なユーザクエリに耐性があり、知識ソースに役立ち、宣言的パラダイムによるプログラミングポリシーの容易さを提供する。
62名の被験者を対象とする実ユーザ調査により,KITA は GPT-4 を26.1,22.5,52.4 点で上回り,実行精度,対話行動精度,目標達成率をそれぞれ上回った。
また,正確性を確保するため,KITAと22のリアルタイム会話を手作業で修正した。
関連論文リスト
- Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks [33.656061405996574]
AURA(Agent for Understanding, Reasoning, and Automated Tool Use)は、オープンソースの音声ネイティブアシスタントである。
AURAは、オープンウェイトなASR、TS、LLMをカスケードパイプラインに統合し、カレンダ予約、コンタクトルックアップ、Web検索、Eメールなどのツールをサポートする。
VoiceBenchでは、AURAは全オープンウェイトシステムで92.75%を上回り、AlpacaEvalではGPT-4oと4.39に近づき、他のオープンウェイトシステムと競合する。
論文 参考訳(メタデータ) (2025-06-29T01:13:15Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。
Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。
GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-15T13:45:40Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Exploring Interaction Patterns for Debugging: Enhancing Conversational
Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。
LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。
本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文 参考訳(メタデータ) (2024-02-09T07:44:27Z) - Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding [15.04954445749935]
メタプロンプティング(メタプロンプティング)は,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。
高レベルの命令を利用することで、メタプロンプトはLMをガイドし、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。
このプロセスの中心はLM自体であり、導体としての役割を持ち、シームレスなコミュニケーションと出力の効果的な統合を保証する。
論文 参考訳(メタデータ) (2024-01-23T18:22:19Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z) - TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。
ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。
リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文 参考訳(メタデータ) (2023-11-29T11:23:42Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward
Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。
2人のエージェントが互いに相互作用し、同時に一緒に学習されます。
その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T04:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。