論文の概要: MARCO: Multi-Agent Real-time Chat Orchestration
- arxiv url: http://arxiv.org/abs/2410.21784v1
- Date: Tue, 29 Oct 2024 06:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:43:00.122866
- Title: MARCO: Multi-Agent Real-time Chat Orchestration
- Title(参考訳): MARCO:マルチエージェントリアルタイムチャットオーケストレーション
- Authors: Anubhav Shrimal, Stanley Kanagaraj, Kriti Biswas, Swarnalatha Raghuraman, Anish Nediyanchath, Yi Zhang, Promod Yenigalla,
- Abstract要約: LLMを用いたタスク自動化のためのマルチエージェントリアルタイムチャットオーケストレーションフレームワークであるMARCOを提案する。
MARCOは複雑なマルチステップタスク実行にLLMを使用する上で重要な課題に対処する。
我々は、デジタルレストランサービスプラットフォームの会話におけるタスク実行における、94.48%と92.74%の精度で、MARCOの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 6.7741570640544415
- License:
- Abstract: Large language model advancements have enabled the development of multi-agent frameworks to tackle complex, real-world problems such as to automate tasks that require interactions with diverse tools, reasoning, and human collaboration. We present MARCO, a Multi-Agent Real-time Chat Orchestration framework for automating tasks using LLMs. MARCO addresses key challenges in utilizing LLMs for complex, multi-step task execution. It incorporates robust guardrails to steer LLM behavior, validate outputs, and recover from errors that stem from inconsistent output formatting, function and parameter hallucination, and lack of domain knowledge. Through extensive experiments we demonstrate MARCO's superior performance with 94.48% and 92.74% accuracy on task execution for Digital Restaurant Service Platform conversations and Retail conversations datasets respectively along with 44.91% improved latency and 33.71% cost reduction. We also report effects of guardrails in performance gain along with comparisons of various LLM models, both open-source and proprietary. The modular and generic design of MARCO allows it to be adapted for automating tasks across domains and to execute complex usecases through multi-turn interactions.
- Abstract(参考訳): 大規模言語モデルの進歩により、多言語フレームワークの開発は、多様なツールや推論、人間とのコラボレーションを必要とするタスクを自動化するといった、複雑で現実的な問題に対処することが可能になった。
LLMを用いたタスク自動化のためのマルチエージェントリアルタイムチャットオーケストレーションフレームワークであるMARCOを提案する。
MARCOは複雑なマルチステップタスク実行にLLMを使用する上で重要な課題に対処する。
堅牢なガードレールを組み込んで、LCMの動作を制御し、出力を検証し、一貫性のない出力フォーマット、関数とパラメータの幻覚、ドメイン知識の欠如に起因するエラーから回復する。
MARCOの優れたパフォーマンスを94.48%と92.74%の精度で実証し、それぞれDigital Restaurant Service Platformの会話とRetailの会話データセット、44.91%の改善されたレイテンシと33.71%のコスト削減を示した。
また、オープンソースとプロプライエタリの両方において、各種LLMモデルとの比較とともに、ガードレールが性能向上に与える影響を報告する。
MARCOのモジュール的で汎用的な設計により、ドメイン間でのタスクの自動化や、マルチターンインタラクションによる複雑なユースケースの実行に適応することができる。
関連論文リスト
- Improving Multi-turn Task Completion in Task-Oriented Dialog Systems via Prompt Chaining and Fine-Grained Feedback [2.246166820363412]
タスク指向ダイアログ(TOD)システムは、自然言語による複雑なマルチターンタスクの達成を容易にする。
LLMはマルチターンタスク補完を確実に扱うのに苦労する。
本稿では,TODシステムを強化する新しいフレームワークであるRealTODを提案する。
論文 参考訳(メタデータ) (2025-02-18T21:36:19Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.35744453954844]
本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文 参考訳(メタデータ) (2025-02-17T15:24:49Z) - AgentPS: Agentic Process Supervision for Multi-modal Content Quality Assurance through Multi-round QA [9.450927573476822]
textitAgentPSは、エージェントプロセススーパービジョンをMLLMに統合する新しいフレームワークである。
textitAgentPSは、プロプライエタリなTikTokデータセット上でのベースラインMLLMよりも大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。