Fugu-MT 論文翻訳(概要): MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification

論文の概要: MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification

arxiv url: http://arxiv.org/abs/2412.04494v2
Date: Fri, 10 Jan 2025 22:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 23:17:56.36514
Title: MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification
Title（参考訳）: MAG-V: 合成データ生成と検証のためのマルチエージェントフレームワーク
Authors: Saptarshi Sengupta, Harsh Vashistha, Kristal Curtis, Akshay Mallipeddi, Abhinav Mathur, Joseph Ross, Liang Gou,
Abstract要約: MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
参考スコア（独自算出の注目度）: 5.666070277424383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extending the capabilities of Large Language Models (LLMs) with functions or tools for environment interaction has led to the emergence of the agent paradigm. In industry, training an LLM is not always feasible because of the scarcity of domain data, legal holds on proprietary customer data, rapidly changing business requirements, and the need to prototype new assistants. Agents provide an elegant solution to the above by relying on the zero-shot reasoning abilities of the underlying LLM and utilizing tools to explore and reason over customer data and respond to user requests. However, there are two concerns here: (I) acquiring large scale customer queries for agent testing is time-consuming, and (II) high reliance on the tool call sequence (or trajectory) followed by the agent to respond to user queries may lead to unexpected or incorrect behavior. To address this, we propose MAG-V, a multi-agent framework to first generate a dataset of questions that mimic customer queries; and second, reverse-engineer alternate questions from the responses for trajectory verification. Initial results indicate that our synthetic data can improve agent performance on actual customer queries. Furthermore, our trajectory verification methodology, inspired by distant supervision and using traditional machine learning (ML) models, outperforms a GPT-4o judge baseline by 11% accuracy and matches the performance of a GPT-4 judge on our constructed dataset. Overall, our approach is a step towards unifying diverse task agents into a cohesive framework for achieving an aligned objective.
Abstract（参考訳）: 大規模言語モデル(LLM)の機能を環境相互作用のための機能やツールで拡張することで、エージェントパラダイムの出現につながった。業界では、ドメインデータの不足、プロプライエタリな顧客データに対する法的保持、ビジネス要件の急激な変更、新しいアシスタントのプロトタイプの必要性などにより、LLMのトレーニングが常に実現可能であるとは限らない。エージェントは、基礎となるLCMのゼロショット推論能力に依存し、顧客データを調べて推論し、ユーザ要求に応答するツールを活用することで、上記のようにエレガントなソリューションを提供します。しかし、(I)エージェントテストのための大規模な顧客クエリの取得には時間がかかり、(II)ツールコールシーケンス(またはトラジェクトリ)への依存度が高い、そして(II)ユーザクエリに応答するエージェントが続くと、予期せぬ、あるいは誤った振る舞いが発生する可能性がある、という2つの懸念がある。そこで我々は、まず顧客クエリを模倣する質問のデータセットを生成するマルチエージェントフレームワークMAG-Vを提案する。最初の結果から,我々の合成データにより,実際の顧客クエリにおけるエージェント性能が向上することが示唆された。さらに,従来の機械学習(ML)モデルを用いた遠隔監視による軌道検証手法は,GPT-4o判定基準を11%精度で上回り,構築したデータセット上でのGPT-4判定結果と一致させる。全体として、我々のアプローチは、多様なタスクエージェントを協調的な目的を達成するための結束的なフレームワークに統合するための一歩です。

関連論文リスト

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。異種評価アーティファクトを、統一された正のみの相互作用データに変換する。 AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文参考訳（メタデータ） (2026-03-04T06:17:51Z)
Insight Agents: An LLM-Based Multi-Agent System for Data Insights [6.3353477880949045]
我々は、対話型マルチエージェントデータインサイトシステムであるInsight Agents(IA)を開発し、個人化されたデータとビジネスインサイトを提供する。 IAは米国でAmazonの販売者向けにローンチされており、人間の評価に基づいて90%の精度を達成しており、P90のレイテンシは15秒以下である。
論文参考訳（メタデータ） (2026-01-27T20:51:01Z)
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文参考訳（メタデータ） (2025-11-26T13:26:11Z)
How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文参考訳（メタデータ） (2025-10-10T19:04:28Z)
QAgent: A modular Search Agent with Interactive Query Understanding [25.147900132089777]
大規模言語モデルは自然言語処理に優れるが、静的パラメトリック知識によって制限される。本稿では,適応検索に検索エージェントを用いる統一エージェントRAGフレームワークを提案する。実験ではQAでQAgentが優れていることを示し、実世界のデプロイのためのプラグイン・アンド・プレイモジュールとして機能する。
論文参考訳（メタデータ） (2025-10-09T16:08:05Z)
Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First [72.85721148326138]
大規模言語モデル(LLM)エージェントは、将来、データシステムの主要なワークロードになる可能性が高い。エージェントの推測は、現在のデータシステムに課題をもたらす可能性がある。我々は,新しいエージェントファーストデータシステムアーキテクチャの新たな研究機会について概説する。
論文参考訳（メタデータ） (2025-08-31T21:19:40Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文参考訳（メタデータ） (2025-08-07T03:33:59Z)
Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文参考訳（メタデータ） (2025-07-15T18:50:29Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文参考訳（メタデータ） (2025-04-03T14:21:33Z)
Agent-centric Information Access [21.876205078570507]
大規模言語モデル(LLM)はより特殊化され、それぞれが独自のデータに基づいて訓練され、特定のドメインで優れたものとなる。本稿ではエージェント中心の情報アクセスのためのフレームワークを紹介し,LLMは知識エージェントとして機能し,その知識に基づいて動的にランク付けされ,クエリされる。本稿では,検索拡張生成とクラスタリング技術を活用して,数千の専門モデルの構築と評価を行うスケーラブルな評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-26T16:56:19Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。 Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-05T17:14:23Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。 RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。 9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T09:30:02Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Hallucination-minimized Data-to-answer Framework for Financial Decision-makers [1.3781777926017094]
大規模言語モデル(LLM)は、いくつかの自動化とパーソナライズされた質問応答プロトタイプの構築に応用されている。本稿では,データテーブルを階層的なテキストデータチャンクに変換するLangchainベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-09T22:53:52Z)
ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文参考訳（メタデータ） (2023-05-23T04:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。