論文の概要: MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
- arxiv url: http://arxiv.org/abs/2412.04494v1
- Date: Thu, 28 Nov 2024 19:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 08:00:20.303844
- Title: MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
- Title(参考訳): MAG-V: 合成データ生成と検証のためのマルチエージェントフレームワーク
- Authors: Saptarshi Sengupta, Kristal Curtis, Akshay Mallipeddi, Abhinav Mathur, Joseph Ross, Liang Gou,
- Abstract要約: MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 5.950199454714014
- License:
- Abstract: Extending the capabilities of Large Language Models (LLMs) with functions or tools for environment interaction has led to the emergence of the agent paradigm. In industry, training an LLM is not always feasible because of the scarcity of domain data, legal holds on proprietary customer data, rapidly changing business requirements, and the need to prototype new assistants. Agents provide an elegant solution to the above by relying on the zero-shot reasoning abilities of the underlying LLM and utilizing tools to explore and reason over customer data and respond to user requests. However, there are two concerns here: (I) acquiring large scale customer queries for agent testing is time-consuming, and (II) high reliance on the tool call sequence (or trajectory) followed by the agent to respond to user queries may lead to unexpected or incorrect behavior. To address this, we propose MAG-V, a multi-agent framework to first generate a dataset of questions that mimic customer queries; and second, reverse-engineer alternate questions from the responses for trajectory verification. Initial results indicate that our synthetic data can improve agent performance on actual customer queries. Furthermore, our trajectory verification methodology, inspired by distant supervision and using traditional machine learning (ML) models, outperforms a GPT-4o judge baseline by 11% accuracy and matches the performance of a GPT-4 judge on our constructed dataset. Overall, our approach is a step towards unifying diverse task agents into a cohesive framework for achieving an aligned objective.
- Abstract(参考訳): 大規模言語モデル(LLM)の機能を環境相互作用のための機能やツールで拡張することで、エージェントパラダイムの出現につながった。
業界では、ドメインデータの不足、プロプライエタリな顧客データに対する法的保持、ビジネス要件の急激な変更、新しいアシスタントのプロトタイプの必要性などにより、LLMのトレーニングが常に実現可能であるとは限らない。
エージェントは、基礎となるLCMのゼロショット推論能力に依存し、顧客データを調べて推論し、ユーザ要求に応答するツールを活用することで、上記のようにエレガントなソリューションを提供します。
しかし、(I)エージェントテストのための大規模な顧客クエリの取得には時間がかかり、(II)ツールコールシーケンス(またはトラジェクトリ)への依存度が高い、そして(II)ユーザクエリに応答するエージェントが続くと、予期せぬ、あるいは誤った振る舞いが発生する可能性がある、という2つの懸念がある。
そこで我々は、まず顧客クエリを模倣する質問のデータセットを生成するマルチエージェントフレームワークMAG-Vを提案する。
最初の結果から,我々の合成データにより,実際の顧客クエリにおけるエージェント性能が向上することが示唆された。
さらに,従来の機械学習(ML)モデルを用いた遠隔監視による軌道検証手法は,GPT-4o判定基準を11%精度で上回り,構築したデータセット上でのGPT-4判定結果と一致させる。
全体として、我々のアプローチは、多様なタスクエージェントを協調的な目的を達成するための結束的なフレームワークに統合するための一歩です。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。
Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。
本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:14:23Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Hallucination-minimized Data-to-answer Framework for Financial
Decision-makers [1.3781777926017094]
大規模言語モデル(LLM)は、いくつかの自動化とパーソナライズされた質問応答プロトタイプの構築に応用されている。
本稿では,データテーブルを階層的なテキストデータチャンクに変換するLangchainベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T22:53:52Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。