論文の概要: CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning
- arxiv url: http://arxiv.org/abs/2602.24142v1
- Date: Fri, 27 Feb 2026 16:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.510505
- Title: CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning
- Title(参考訳): CoME:Informative Hybrid-Capabilities Reasoningによるモバイル仕様のチャネル・オブ・モバイル化
- Authors: Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan,
- Abstract要約: モバイルエージェントは、ハイブリッド機能推論を必要とするユーザ命令を自律的に実行することができる。
4つの異なる専門家からなる新しいエージェントアーキテクチャであるChannel-of-Mobile-Experts (CoME)を提案する。
実験の結果,CoME は AITZ と AMEX のデータセットにおいて,高密度移動エージェントや MoE メソッドよりも優れていた。
- 参考スコア(独自算出の注目度): 97.4254365377865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile Agents can autonomously execute user instructions, which requires hybrid-capabilities reasoning, including screen summary, subtask planning, action decision and action function. However, existing agents struggle to achieve both decoupled enhancement and balanced integration of these capabilities. To address these challenges, we propose Channel-of-Mobile-Experts (CoME), a novel agent architecture consisting of four distinct experts, each aligned with a specific reasoning stage, CoME activates the corresponding expert to generate output tokens in each reasoning stage via output-oriented activation. To empower CoME with hybrid-capabilities reasoning, we introduce a progressive training strategy: Expert-FT enables decoupling and enhancement of different experts' capability; Router-FT aligns expert activation with the different reasoning stage; CoT-FT facilitates seamless collaboration and balanced optimization across multiple capabilities. To mitigate error propagation in hybrid-capabilities reasoning, we propose InfoGain-Driven DPO (Info-DPO), which uses information gain to evaluate the contribution of each intermediate step, thereby guiding CoME toward more informative reasoning. Comprehensive experiments show that CoME outperforms dense mobile agents and MoE methods on both AITZ and AMEX datasets.
- Abstract(参考訳): モバイルエージェントは、画面概要、サブタスク計画、アクション決定、アクション機能を含むハイブリッド機能推論を必要とする、ユーザ命令を自律的に実行することができる。
しかし、既存のエージェントは、これらの機能の分離された強化とバランスの取れた統合を達成するのに苦労している。
これらの課題に対処するため、我々は4つの異なる専門家からなる新しいエージェントアーキテクチャであるChannel-of-Mobile-Experts (CoME)を提案する。
エキスパート-FTは、異なる専門家の能力の分離と強化を可能にし、ルータ-FTは、専門家のアクティベーションを異なる推論段階と整合させ、CoT-FTは、複数の機能間でシームレスな協調とバランスの取れた最適化を促進する。
ハイブリッド機能推論における誤り伝播を軽減するため,情報ゲインを用いた情報ゲイン駆動型DPO(InfoGain-Driven DPO)を提案する。
総合実験の結果,CoME は AITZ と AMEX のデータセットにおいて,高密度移動エージェントや MoE メソッドよりも優れていた。
関連論文リスト
- Evolving Interdependent Operators with Large Language Models for Multi-Objective Combinatorial Optimization [21.70371026963599]
MOEAのマルチオペレータ最適化はマルコフ決定プロセスとして定式化されている。
E2OCは、最先端のAHDや他のマルチヒューリスティックな共同設計フレームワークを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-25T16:31:07Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Multi-Task Dense Prediction Fine-Tuning with Mixture of Fine-Grained Experts [22.936728143586443]
密集予測のためのマルチタスク学習(MTL)は有望な結果を示しているが、タスク固有の特殊化と共有表現のバランスをとる上ではまだ課題に直面している。
3つの重要なイノベーションとファインチューニングを組み合わせることで、MoEベースのMTLモデルを探索する、ファイングラインド・ミックス・オブ・エキスパートアーキテクチャを導入する。
論文 参考訳(メタデータ) (2025-07-25T08:59:30Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [10.215751315734018]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。
いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文 参考訳(メタデータ) (2025-05-23T06:58:44Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。