論文の概要: MIRA: Empowering One-Touch AI Services on Smartphones with MLLM-based Instruction Recommendation
- arxiv url: http://arxiv.org/abs/2509.13773v1
- Date: Wed, 17 Sep 2025 07:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.764526
- Title: MIRA: Empowering One-Touch AI Services on Smartphones with MLLM-based Instruction Recommendation
- Title(参考訳): MIRA:MLLMベースのインストラクションレコメンデーションを備えたスマートフォン上のワンタッチAIサービス
- Authors: Zhipeng Bian, Jieming Zhu, Xuyang Xie, Quanyu Dai, Zhou Zhao, Zhenhua Dong,
- Abstract要約: 本稿では,タスク・インストラクション・レコメンデーションの先駆的フレームワークであるMIRAを紹介する。
MIRAを使用すると、ユーザーは画像やテキストオブジェクトを長押しして、AIタスクを実行するためのコンテキスト関連命令レコメンデーションを受け取ることができる。
MIRAは命令レコメンデーションの精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 61.19099947706954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative AI technologies is driving the integration of diverse AI-powered services into smartphones, transforming how users interact with their devices. To simplify access to predefined AI services, this paper introduces MIRA, a pioneering framework for task instruction recommendation that enables intuitive one-touch AI tasking on smartphones. With MIRA, users can long-press on images or text objects to receive contextually relevant instruction recommendations for executing AI tasks. Our work introduces three key innovations: 1) A multimodal large language model (MLLM)-based recommendation pipeline with structured reasoning to extract key entities, infer user intent, and generate precise instructions; 2) A template-augmented reasoning mechanism that integrates high-level reasoning templates, enhancing task inference accuracy; 3) A prefix-tree-based constrained decoding strategy that restricts outputs to predefined instruction candidates, ensuring coherent and intent-aligned suggestions. Through evaluation using a real-world annotated datasets and a user study, MIRA has demonstrated substantial improvements in the accuracy of instruction recommendation. The encouraging results highlight MIRA's potential to revolutionize the way users engage with AI services on their smartphones, offering a more seamless and efficient experience.
- Abstract(参考訳): 生成AI技術の急速な進歩は、さまざまなAI駆動サービスのスマートフォンへの統合を促進し、ユーザーがデバイスと対話する方法を変えている。
本稿では、事前に定義されたAIサービスへのアクセスを簡単にするために、スマートフォン上で直感的なワンタッチAIタスクを可能にするタスク命令レコメンデーションの先駆的フレームワークであるMIRAを紹介する。
MIRAを使用すると、ユーザーは画像やテキストオブジェクトを長押しして、AIタスクを実行するためのコンテキスト関連命令レコメンデーションを受け取ることができる。
私たちの研究は3つの重要なイノベーションを紹介します。
1) キーエンティティを抽出し、ユーザ意図を推測し、正確な指示を生成する構造的推論を備えたマルチモーダル大規模言語モデル(MLLM)に基づくレコメンデーションパイプライン。
2) 高レベル推論テンプレートを統合し,タスク推測精度を向上するテンプレート強化推論機構
3)プレフィックスツリーベースの制約付き復号化戦略は、出力を事前定義された命令候補に制限し、一貫性と意図に整合した提案を保証する。
実世界の注釈付きデータセットとユーザスタディを用いた評価を通じて、MIRAは命令推薦の精度を大幅に改善した。
MIRAがスマートフォン上でAIサービスを利用する方法に革命をもたらす可能性を強調し、よりシームレスで効率的なエクスペリエンスを提供する。
関連論文リスト
- Multi-Agent Actor-Critic Generative AI for Query Resolution and Analysis [1.0124625066746598]
本稿では,アクタ批判モデルに基づく問合せ解決のための変換フレームワークであるMASQRADを紹介する。
MASQRADは不正確または曖昧なユーザからの問い合わせを正確で行動可能な要求に翻訳するのに優れている。
MASQRAD は高度なマルチエージェントシステムとして機能するが、単一のAIエンティティとしてユーザに対して "masquerad" を提供する。
論文 参考訳(メタデータ) (2025-02-17T04:03:15Z) - MaestroMotif: Skill Design from Artificial Intelligence Feedback [67.17724089381056]
MaestroMotifはAI支援スキルデザインの手法であり、高性能で適応可能なエージェントを生成する。
本稿では,AIを活用したスキルデザイン手法であるMaestroMotifについて述べる。
論文 参考訳(メタデータ) (2024-12-11T16:59:31Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG) [5.305156933641317]
知的学習システム(ITS)におけるLarge Language Models (LLMs)は、パーソナライズされた教育に変革をもたらす機会を提供する。
現在の実装では、2つの重要な課題に直面している。
本稿では,構造化知識表現と文脈認識検索を統合した新しいフレームワークである知識グラフ強化検索(RAG)を提案する。
論文 参考訳(メタデータ) (2023-11-29T15:02:46Z) - New Interaction Paradigm for Complex EDA Software Leveraging GPT [5.386974905314838]
We present SmartonAI, AI-assisted interaction system that integrates large language model into the EDA workflow。
SmartonAIは、ユーザ命令をサブタスクに分解するChatCommandと、カスタマイズされたドキュメントを取得するOneLineの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-07-27T09:53:02Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。