Fugu-MT 論文翻訳(概要): Coding Reliable LLM-based Integrated Task and Knowledge Agents with GenieWorksheets

論文の概要: Coding Reliable LLM-based Integrated Task and Knowledge Agents with GenieWorksheets

arxiv url: http://arxiv.org/abs/2407.05674v2
Date: Thu, 31 Oct 2024 02:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 23:24:33.838985
Title: Coding Reliable LLM-based Integrated Task and Knowledge Agents with GenieWorksheets
Title（参考訳）: ジェニーワークシートを用いた信頼性の高いLCMベース統合タスクと知識エージェントのコーディング
Authors: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam,
Abstract要約: 我々は、タスク指向の会話エージェントを作成するためのフレームワークGenieを紹介する。 Genieは、コントロール可能なエージェントポリシを備えた、信頼できる地上応答を提供する。 Genieを使用して構築されたエージェントは、STARV2データセットの複雑なロジックドメインの最先端メソッドを最大20.5%向上させる。
参考スコア（独自算出の注目度）: 9.062774302155043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) present an opportunity to create automated assistants that can help users navigate complex tasks. However, existing approaches have limitations in handling conditional logic, integrating knowledge sources, and consistently following instructions. Researchers and industry professionals often employ ad hoc pipelines to construct conversational agents. These pipelines aim to maintain context, address failure cases, and minimize hallucinations, yet frequently fail to achieve these objectives. To this end, we present Genie - a programmable framework for creating task-oriented conversational agents that are designed to handle complex user interactions and knowledge queries. Unlike LLMs, Genie provides reliable grounded responses, with controllable agent policies through its expressive specification, Genie Worksheet. In contrast to dialog trees, it is resilient to diverse user queries, helpful with knowledge sources, and offers ease of programming policies through its declarative paradigm. The agents built using Genie outperforms the state-of-the-art method on complex logic domains in STARV2 dataset by up to 20.5%. Additionally, through a real-user study involving 62 participants, we show that Genie beats the GPT-4 with function calling baseline by 21.1%, 20.1%, and 61% on execution accuracy, dialogue act accuracy, and goal completion rate, respectively, on three diverse real-world domains
Abstract（参考訳）: 大きな言語モデル(LLM)は、ユーザが複雑なタスクをナビゲートするのに役立つ自動アシスタントを作成する機会を提供する。しかし、既存のアプローチは条件論理の扱い、知識源の統合、命令の継続に制限がある。研究者や業界の専門家は、しばしば会話エージェントを構築するためにアドホックパイプラインを使用している。これらのパイプラインは、コンテキストを維持し、障害ケースに対処し、幻覚を最小限にすることを目的としている。この目的のために、複雑なユーザインタラクションと知識クエリを扱うように設計されたタスク指向の対話エージェントを作成するためのプログラム可能なフレームワークGenieを提案する。 LLMとは異なり、Genieは、表現力のある仕様であるGenie Worksheetを通じて、制御可能なエージェントポリシーを備えた信頼できる基底応答を提供する。ダイアログツリーとは対照的に、多様なユーザクエリに耐性があり、知識ソースに役立ち、宣言的パラダイムによるプログラミングポリシーの容易さを提供する。 Genieを使用して構築されたエージェントは、STARV2データセットの複雑なロジックドメインの最先端メソッドを最大20.5%向上させる。さらに,62名の参加者を対象とする実ユーザ調査を通じて,Genieは実世界の3つのドメインにおいて,それぞれ実行精度,対話行動精度,目標達成率を21.1%,20.1%,61%でGPT-4を破った。

関連論文リスト

Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。 2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文参考訳（メタデータ） (2025-07-22T19:23:03Z)
AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks [33.656061405996574]
AURA(Agent for Understanding, Reasoning, and Automated Tool Use)は、オープンソースの音声ネイティブアシスタントである。 AURAは、オープンウェイトなASR、TS、LLMをカスケードパイプラインに統合し、カレンダ予約、コンタクトルックアップ、Web検索、Eメールなどのツールをサポートする。 VoiceBenchでは、AURAは全オープンウェイトシステムで92.75%を上回り、AlpacaEvalではGPT-4oと4.39に近づき、他のオープンウェイトシステムと競合する。
論文参考訳（メタデータ） (2025-06-29T01:13:15Z)
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。 VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文参考訳（メタデータ） (2024-12-24T06:03:42Z)
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文参考訳（メタデータ） (2024-11-01T15:57:45Z)
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。 Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。 GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2024-07-15T13:45:40Z)
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文参考訳（メタデータ） (2024-07-13T13:58:24Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。 DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2024-06-11T09:09:37Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
Exploring Interaction Patterns for Debugging: Enhancing Conversational Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。 LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文参考訳（メタデータ） (2024-02-09T07:44:27Z)
Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding [15.04954445749935]
メタプロンプティング(メタプロンプティング)は,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。高レベルの命令を利用することで、メタプロンプトはLMをガイドし、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。このプロセスの中心はLM自体であり、導体としての役割を持ち、シームレスなコミュニケーションと出力の効果的な統合を保証する。
論文参考訳（メタデータ） (2024-01-23T18:22:19Z)
Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文参考訳（メタデータ） (2023-12-13T02:35:57Z)
TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文参考訳（メタデータ） (2023-11-29T11:23:42Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文参考訳（メタデータ） (2023-06-11T20:50:14Z)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。 ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文参考訳（メタデータ） (2023-02-08T12:35:34Z)
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。 2人のエージェントが互いに相互作用し、同時に一緒に学習されます。その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T04:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。