Fugu-MT 論文翻訳(概要): Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets

論文の概要: Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets

arxiv url: http://arxiv.org/abs/2407.05674v3
Date: Tue, 17 Jun 2025 17:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 15:22:19.131847
Title: Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets
Title（参考訳）: 宣言型ジェニーワークシートを用いた制御可能で信頼性の高いタスク指向会話エージェント
Authors: Harshit Joshi, Shicheng Liu, James Chen, Robert Weigle, Monica S. Lam,
Abstract要約: 我々は、タスク指向の会話エージェントを作成するためのフレームワークGenieを紹介する。高度な対話状態管理を通じて、信頼性の高い地上応答を提供する。 Genieで構築されたエージェントは、複雑な論理対話データセット上でSOTAメソッドより優れている。
参考スコア（独自算出の注目度）: 9.062774302155043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models can carry out human-like conversations in diverse settings, responding to user requests for tasks and knowledge. However, existing conversational agents implemented with LLMs often struggle with hallucination, following instructions with conditional logic, and integrating knowledge from different sources. These shortcomings compromise the agents' effectiveness, rendering them unsuitable for deployment. To address these challenges, we introduce Genie, a programmable framework for creating knowledge-intensive task-oriented conversational agents. Genie can handle involved interactions and answer complex queries. Unlike LLMs, it delivers reliable, grounded responses through advanced dialogue state management and supports controllable agent policies via its declarative specification -- Genie Worksheet. This is achieved through an algorithmic runtime system that implements the developer-supplied policy, limiting LLMs to (1) parse user input using a succinct conversational history, and (2) generate responses according to supplied context. Agents built with Genie outperform SOTA methods on complex logic dialogue datasets. We conducted a user study with 62 participants on three real-life applications: restaurant reservations with Yelp, as well as ticket submission and course enrollment for university students. Genie agents with GPT-4 Turbo outperformed the GPT-4 Turbo agents with function calling, improving goal completion rates from 21.8% to 82.8% across three real-world tasks.
Abstract（参考訳）: 大規模言語モデルは、タスクや知識に対するユーザの要求に応じて、多様な設定でヒューマンライクな会話を実行することができる。しかしながら、LLMで実装された既存の会話エージェントは、条件論理による指示に従い、異なるソースからの知識を統合するなど、幻覚に苦しむことが多い。これらの欠点はエージェントの有効性を損なうため、デプロイには適さない。これらの課題に対処するために、知識集約型タスク指向会話エージェントを作成するためのプログラム可能なフレームワークGenieを紹介する。 Genieは関連するインタラクションを処理し、複雑なクエリに応答することができる。 LLMとは違って、高度な対話状態管理を通じて信頼性の高い地上応答を提供し、宣言的な仕様であるGenie Worksheetを通じて制御可能なエージェントポリシーをサポートする。これは、開発者が提供するポリシーを実装したアルゴリズムランタイムシステムによって実現され、(1)簡潔な会話履歴を用いたユーザ入力のパースにLSMを制限し、(2)供給されたコンテキストに応じて応答を生成する。 Genieで構築されたエージェントは、複雑な論理対話データセット上でSOTAメソッドより優れている。実生活の3つの応用として,Yelpとのレストラン予約,チケットの申し込み,大学生のコース登録を62名を対象に実施した。 GPT-4TurboのジェニーエージェントはGPT-4Turboエージェントよりも性能が優れ、実際の3つのタスクでゴール完了率が21.8%から82.8%に向上した。

関連論文リスト

Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。 2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文参考訳（メタデータ） (2025-07-22T19:23:03Z)
AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks [33.656061405996574]
AURA(Agent for Understanding, Reasoning, and Automated Tool Use)は、オープンソースの音声ネイティブアシスタントである。 AURAは、オープンウェイトなASR、TS、LLMをカスケードパイプラインに統合し、カレンダ予約、コンタクトルックアップ、Web検索、Eメールなどのツールをサポートする。 VoiceBenchでは、AURAは全オープンウェイトシステムで92.75%を上回り、AlpacaEvalではGPT-4oと4.39に近づき、他のオープンウェイトシステムと競合する。
論文参考訳（メタデータ） (2025-06-29T01:13:15Z)
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。 VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文参考訳（メタデータ） (2024-12-24T06:03:42Z)
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文参考訳（メタデータ） (2024-11-01T15:57:45Z)
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。 Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。 GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2024-07-15T13:45:40Z)
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文参考訳（メタデータ） (2024-07-13T13:58:24Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。 DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2024-06-11T09:09:37Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
Exploring Interaction Patterns for Debugging: Enhancing Conversational Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。 LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文参考訳（メタデータ） (2024-02-09T07:44:27Z)
Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding [15.04954445749935]
メタプロンプティング(メタプロンプティング)は,言語モデル(LM)の機能向上を目的とした効果的な足場技術である。高レベルの命令を利用することで、メタプロンプトはLMをガイドし、複雑なタスクをより小さく、より管理しやすいサブタスクに分解する。このプロセスの中心はLM自体であり、導体としての役割を持ち、シームレスなコミュニケーションと出力の効果的な統合を保証する。
論文参考訳（メタデータ） (2024-01-23T18:22:19Z)
Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文参考訳（メタデータ） (2023-12-13T02:35:57Z)
TaskWeaver: A Code-First Agent Framework [50.99683051759488]
TaskWeaverは、LLMで動く自律エージェントを構築するためのコードファーストフレームワークである。ユーザ要求を実行可能なコードに変換し、ユーザ定義プラグインを呼び出し可能な関数として扱う。リッチなデータ構造、フレキシブルなプラグイン利用、動的プラグイン選択のサポートを提供する。
論文参考訳（メタデータ） (2023-11-29T11:23:42Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文参考訳（メタデータ） (2023-06-11T20:50:14Z)
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。 ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文参考訳（メタデータ） (2023-02-08T12:35:34Z)
Multi-Agent Task-Oriented Dialog Policy Learning with Role-Aware Reward Decomposition [64.06167416127386]
本稿では,システムとユーザの両方をダイアログエージェントとみなすマルチエージェントダイアログポリシー学習を提案する。 2人のエージェントが互いに相互作用し、同時に一緒に学習されます。その結果,本手法がシステムポリシとユーザポリシを同時に構築できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T04:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。