論文の概要: An Automated Multi-modal Evaluation Framework for Mobile Intelligent Assistants Based on Large Language Models and Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2508.09507v2
- Date: Tue, 21 Oct 2025 14:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.215314
- Title: An Automated Multi-modal Evaluation Framework for Mobile Intelligent Assistants Based on Large Language Models and Multi-Agent Collaboration
- Title(参考訳): 大規模言語モデルとマルチエージェント協調に基づくモバイルインテリジェントアシスタントの自動マルチモーダル評価フレームワーク
- Authors: Meiping Wang, Jian Zhong, Rongduo Han, Liming Kang, Zhengkun Shi, Xiao Liang, Xing Lin, Nan Gao, Haining Zhang,
- Abstract要約: 本稿では,大規模言語モデルとマルチエージェント協調に基づく自動マルチモーダル評価フレームワークを提案する。
このフレームワークは、インタラクション評価エージェント、セマンティック検証エージェント、経験決定エージェントからなる3層エージェントアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 5.630646705589818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of mobile intelligent assistant technologies, multi-modal AI assistants have become essential interfaces for daily user interactions. However, current evaluation methods face challenges including high manual costs, inconsistent standards, and subjective bias. This paper proposes an automated multi-modal evaluation framework based on large language models and multi-agent collaboration. The framework employs a three-tier agent architecture consisting of interaction evaluation agents, semantic verification agents, and experience decision agents. Through supervised fine-tuning on the Qwen3-8B model, we achieve a significant evaluation matching accuracy with human experts. Experimental results on eight major intelligent agents demonstrate the framework's effectiveness in predicting users' satisfaction and identifying generation defects.
- Abstract(参考訳): モバイルインテリジェントアシスタント技術の急速な発展に伴い、マルチモーダルAIアシスタントは日々のユーザーインタラクションに欠かせないインターフェースとなっている。
しかし、現在の評価手法では、高い手作業コスト、矛盾する基準、主観的偏見などの課題に直面している。
本稿では,大規模言語モデルとマルチエージェント協調に基づく自動マルチモーダル評価フレームワークを提案する。
このフレームワークは、インタラクション評価エージェント、セマンティック検証エージェント、経験決定エージェントからなる3層エージェントアーキテクチャを採用している。
Qwen3-8Bモデルの教師付き微調整により,人間の専門家とのマッチング精度を高く評価する。
8つの主要な知的エージェントに対する実験結果は、ユーザの満足度を予測し、生成欠陥を特定する上で、フレームワークの有効性を示す。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - Agentic Persona Control and Task State Tracking for Realistic User Simulation in Interactive Scenarios [0.0]
対話型シナリオにおける現実的で説明可能なユーザシミュレーションのための,新しいマルチエージェントフレームワークを提案する。
我々は、目標志向の会話において、人間の認知過程を反映するペルソナ制御とタスク状態追跡を採用する。
論文 参考訳(メタデータ) (2025-11-30T20:25:56Z) - OPTAGENT: Optimizing Multi-Agent LLM Interactions Through Verbal Reinforcement Learning for Enhanced Reasoning [14.105640933123325]
大規模言語モデル(LLM)は、数学的および科学的タスクにおいて顕著な推論能力を示している。
複雑な推論を強化するため、LLMエージェントの集合的知性を活用するためにマルチエージェントシステムが提案されている。
複数エージェントの協調構造を動的に構築・洗練する多エージェント言語強化学習アルゴリズムである$ours$を提案する。
論文 参考訳(メタデータ) (2025-10-20T19:07:51Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions [1.1957417530954946]
複雑な課題を解決するための,有望なアプローチとして,マルチエージェントコラボレーションが登場している。
本研究は、株式調査・ポートフォリオ管理における株式選択を支援するために、ロールベースのマルチエージェントシステムの適用について検討する。
論文 参考訳(メタデータ) (2025-08-15T01:49:56Z) - SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing [22.10696272175415]
アプリケーション機能テストのためのマルチユーザ対話タスクを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェントアプローチであるMAdroidを提案する。
具体的には、MAdroidは、ユーザエージェント(オペレータ)とスーパーバイザーエージェント(コーディネータとオブザーバ)の2つの機能タイプを採用している。
マルチユーザ対話型タスク41件を含む評価は,96.8%の動作類似性を有するタスクの82.9%を達成し,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2025-06-21T01:38:53Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - COMMA: A Communicative Multimodal Multi-Agent Benchmark [7.831385481814481]
本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。
GPT-4oのようなプロプライエタリなモデルを含む最先端モデルの驚くべき弱点が明らかになった。
論文 参考訳(メタデータ) (2024-10-10T02:49:47Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。