論文の概要: DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents
- arxiv url: http://arxiv.org/abs/2510.19336v1
- Date: Wed, 22 Oct 2025 07:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.332041
- Title: DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents
- Title(参考訳): DaMo: 携帯電話エージェント用微調整マルチモーダルLCMのデータ混合最適化
- Authors: Kai Shi, Jun Yang, Ni Yang, Binqiang Pan, Qingsong Xie, Chao Zhang, Zhenyu Yang, Tianhuang Su, Haonan Lu,
- Abstract要約: 携帯電話エージェント(MPA)は、様々なシナリオにまたがる幅広い適用性のために、有望な研究方向として登場した。
MLLMはマルチタスクの基礎として機能し、複数の携帯電話タスクを同時に処理する効果は限定的のままである。
既存のアプローチでは、ピークパフォーマンスのための最適なトレーニングデータ構成を決定するのに苦労している。
本稿では,任意のデータセット比に対する下流タスク性能を予測し,最適なデータ混合を予測する新しいMPADaMoを提案する。
- 参考スコア(独自算出の注目度): 17.31497354264666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile Phone Agents (MPAs) have emerged as a promising research direction due to their broad applicability across diverse scenarios. While Multimodal Large Language Models (MLLMs) serve as the foundation for MPAs, their effectiveness in handling multiple mobile phone tasks simultaneously remains limited. Although multitask supervised fine-tuning (SFT) is widely adopted for multitask learning, existing approaches struggle to determine optimal training data compositions for peak performance. To address this challenge, we propose DaMo (Data Mixture Optimizer) - a novel solution employing a trainable network that predicts optimal data mixtures by forecasting downstream task performance for any given dataset ratio. To support comprehensive evaluation, we introduce PhoneAgentBench, the first specialized benchmark to evaluate MLLMs on multimodal mobile phone tasks, comprising 1235 QA pairs spanning diverse real-world industrial mobile application scenarios. Demonstrating strong predictive capability (R^2=0.81) in small-scale pilot experiments, DaMo efficiently extrapolates optimal data mixing configurations. Our results show DaMo achieves a 3.38% performance improvement on PhoneAgentBench compared to alternative methods. Furthermore, extensive experiments across established benchmarks including BFCL-v3, MME-Reasoning, MME-Perception, and OCRBench reveal DaMo's superior generalization, outperforming other approaches by 2.57% in terms of average score. When used solely for MLLM optimization on the BFCL-v3 task, DaMo improves the metrics by 12.47% than other methods. Notably, DaMo maintains robust scalability, preserving its effectiveness when applied to other model architectures. The code and dataset are available at https://github.com/OPPO-Mente-Lab/DaMo.git
- Abstract(参考訳): 携帯電話エージェント(MPA)は、様々なシナリオにまたがる幅広い適用性のために、有望な研究方向として登場した。
MLLM(Multimodal Large Language Models)はMPAの基盤として機能するが、同時に複数の携帯電話タスクを処理する上での有効性は限られている。
マルチタスク教師ありファインチューニング(SFT)はマルチタスク学習に広く採用されているが、既存の手法ではピーク性能のための最適なトレーニングデータ構成を決定するのに苦労している。
この課題に対処するために,任意のデータセット比に対して下流タスク性能を予測し,最適なデータ混合を予測するトレーニング可能なネットワークを用いた新しいソリューションであるDaMo(Data Mixture Optimizer)を提案する。
総合的な評価を支援するために,PhoneAgentBenchを紹介した。PhoneAgentBenchはマルチモーダル携帯電話タスク上でMLLMを評価するための最初の特別なベンチマークであり,実世界の多様なモバイルアプリケーションシナリオにまたがる1235のQAペアから構成される。
小型のパイロット実験で強い予測能力(R^2=0.81)を示すために、DaMoは最適なデータ混合構成を効率的に外挿する。
提案手法と比較すると,DaMoはPhoneAgentBenchの3.38%の性能向上を実現している。
さらに、BFCL-v3、MME-Reasoning、MME-Perception、OCRBenchといった確立されたベンチマークの広範な実験により、DaMoの優れた一般化が明らかとなり、平均スコアの点で他のアプローチよりも2.57%向上した。
BFCL-v3タスクでのMLLM最適化にのみ使用される場合、DaMoは他の方法よりも12.47%改善されている。
特にDaMoは堅牢なスケーラビリティを維持しており、他のモデルアーキテクチャに適用した場合の有効性を保っている。
コードとデータセットはhttps://github.com/OPPO-Mente-Lab/DaMo.gitで公開されている。
関連論文リスト
- Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark [45.28023118459497]
モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。
80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。
挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
論文 参考訳(メタデータ) (2025-03-26T17:59:56Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration [39.16321257800402]
言語モデル(LM)の事前学習を高速化する多要素協調データ選択機構を提案する。
各データ選択方法は、その基準に基づいてデータを独立に優先順位付けし、モデルの現在の状態を使用して優先順位付けルールを更新する。
コンソールは、様々な段階における異なるアクターの影響を調整し、LM事前訓練プロセスを通して全てのアクターからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models [45.51085356985464]
大規模言語モデル(LLM)は、様々な起源から派生した多種多様なデータセットに基づいて微調整されるのが一般的である。
MoSは、微調整プロセス中に自動的にデータ使用量を最適化することを学ぶ。
MoSpecは、特定の目的のために様々なデータセットのユーティリティを利用する。
論文 参考訳(メタデータ) (2024-06-13T05:01:28Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。