論文の概要: An Automated Multi-Modal Evaluation Framework for Mobile Intelligent Assistants
- arxiv url: http://arxiv.org/abs/2508.09507v1
- Date: Wed, 13 Aug 2025 05:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.76955
- Title: An Automated Multi-Modal Evaluation Framework for Mobile Intelligent Assistants
- Title(参考訳): モバイル・インテリジェント・アシスタントのためのマルチモーダル・アセスメント・フレームワーク
- Authors: Meiping Wang, Jian Zhong, Rongduo Han, Liming Kang, Zhengkun Shi, Xiao Liang, Xing Lin, Nan Gao, Haining Zhang,
- Abstract要約: 本稿では,大規模言語モデルとマルチエージェント協調に基づく自動マルチモーダル評価フレームワークを提案する。
このフレームワークは、インタラクション評価エージェント、セマンティック検証エージェント、経験決定エージェントからなる3層エージェントアーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 4.144038142272737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of mobile intelligent assistant technologies, multi-modal AI assistants have become essential interfaces for daily user interactions. However, current evaluation methods face challenges including high manual costs, inconsistent standards, and subjective bias. This paper proposes an automated multi-modal evaluation framework based on large language models and multi-agent collaboration. The framework employs a three-tier agent architecture consisting of interaction evaluation agents, semantic verification agents, and experience decision agents. Through supervised fine-tuning on the Qwen3-8B model, we achieve a significant evaluation matching accuracy with human experts. Experimental results on eight major intelligent agents demonstrate the framework's effectiveness in predicting users' satisfaction and identifying generation defects.
- Abstract(参考訳): モバイルインテリジェントアシスタント技術の急速な発展に伴い、マルチモーダルAIアシスタントは日々のユーザーインタラクションに欠かせないインターフェースとなっている。
しかし、現在の評価手法では、高い手作業コスト、矛盾する基準、主観的偏見などの課題に直面している。
本稿では,大規模言語モデルとマルチエージェント協調に基づく自動マルチモーダル評価フレームワークを提案する。
このフレームワークは、インタラクション評価エージェント、セマンティック検証エージェント、経験決定エージェントからなる3層エージェントアーキテクチャを採用している。
Qwen3-8Bモデルの教師付き微調整により,人間の専門家とのマッチング精度を高く評価する。
8つの主要な知的エージェントに対する実験結果は、ユーザの満足度を予測し、生成欠陥を特定する上で、フレームワークの有効性を示す。
関連論文リスト
- SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。
行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。
また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文 参考訳(メタデータ) (2025-07-01T15:10:00Z) - Breaking Single-Tester Limits: Multi-Agent LLMs for Multi-User Feature Testing [22.10696272175415]
アプリケーション機能テストのためのマルチユーザ対話タスクを自動化するために,LLM(Large Language Models)を利用した新しいマルチエージェントアプローチであるMAdroidを提案する。
具体的には、MAdroidは、ユーザエージェント(オペレータ)とスーパーバイザーエージェント(コーディネータとオブザーバ)の2つの機能タイプを採用している。
マルチユーザ対話型タスク41件を含む評価は,96.8%の動作類似性を有するタスクの82.9%を達成し,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2025-06-21T01:38:53Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - COMMA: A Communicative Multimodal Multi-Agent Benchmark [7.831385481814481]
本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。
GPT-4oのようなプロプライエタリなモデルを含む最先端モデルの驚くべき弱点が明らかになった。
論文 参考訳(メタデータ) (2024-10-10T02:49:47Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。