論文の概要: Less Is More: Engineering Challenges of On-Device Small Language Model Integration in a Mobile Application
- arxiv url: http://arxiv.org/abs/2604.24636v1
- Date: Mon, 27 Apr 2026 16:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.136598
- Title: Less Is More: Engineering Challenges of On-Device Small Language Model Integration in a Mobile Application
- Title(参考訳): 少なからぬ - モバイルアプリケーションにおけるオンデバイス小型言語モデル統合のエンジニアリング上の課題
- Authors: William Oliveira,
- Abstract要約: オンデバイススモールランゲージモデル(SLM)は、モバイルユーザ(クラウド依存がなく、デバイスを離れるデータもない)に対して、完全にオフラインでプライベートなAIエクスペリエンスを約束する。
本稿では,SLMをPalbritaに組み込むことによるエンジニアリング上の課題を,AndroidのワードガッセングゲームであるPalbritaに記録するケーススタディについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device Small Language Models (SLMs) promise fully offline, private AI experiences for mobile users (no cloud dependency, no data leaving the device). But is this promise achievable in practice? This paper presents a longitudinal practitioner case study documenting the engineering challenges of integrating SLMs (Gemma 4 E2B, 2.6B parameters; Qwen3 0.6B, 600M parameters) into Palabrita, a production Android word-guessing game. Over a 5-day development sprint comprising 204 commits (~90 directly AI-related), the system underwent a radical transformation: from an ambitious design where the LLM generated complete structured puzzles (word, category, difficulty, and five hints as JSON) to a pragmatic architecture where curated word lists provide the words and the LLM generates only three short hints, with a deterministic fallback if it fails. We identify five categories of failures specific to on-device SLM integration: output format violations, constraint violations, context quality degradation, latency incompatibility, and model selection instability. For each failure category, we document the observed symptoms, root causes, and the prompt engineering and architectural strategies that effectively mitigated them, including multi-layer defensive parsing, contextual retry with failure feedback, session rotation, progressive prompt hardening, and systematic responsibility reduction. Our findings demonstrate that on-device SLMs are viable for production mobile applications, but only when the developer accepts a fundamental constraint: the most reliable on-device LLM feature is one where the LLM does the least. We distill our experience into eight actionable design heuristics for practitioners integrating SLMs into mobile apps.
- Abstract(参考訳): オンデバイススモールランゲージモデル(SLM)は、モバイルユーザ(クラウド依存がなく、デバイスを離れるデータもない)に対して、完全にオフラインでプライベートなAIエクスペリエンスを約束する。
しかし、この約束は実際に達成できるのだろうか?
本稿では,SLMs(Gemma 4 E2B, 2.6Bパラメータ, Qwen3 0.6B, 600Mパラメータ)をAndroid用ワーガゲームであるPalbritaに組み込む際の工学的課題について述べる。
LLMが完全に構造化されたパズル(単語、カテゴリ、難易度、およびJSONとしての5つのヒント)を作成した野心的な設計から、プログラムされた単語リストが単語を提供し、LLMが失敗すると決定論的フォールバックを伴う3つの短いヒントしか生成しない実用的アーキテクチャへと、204のコミット(約90直接AI関連)からなる5日間の開発スプリントにおいて、システムは急進的な変換が行われた。
オンデバイスSLM統合に特有の障害の5つのカテゴリを識別する。出力フォーマット違反、制約違反、コンテキスト品質劣化、レイテンシ非互換性、モデル選択不安定である。
各障害カテゴリについて,多層防御解析,障害フィードバックによる文脈的再試行,セッションローテーション,プログレッシブ・プログレッシブ・プログレッシブ・ハードニング,システマティック・アソシエーション・リダクション・リダクション・リダクションを含む,観察された症状,根本原因,およびこれらを効果的に緩和する迅速な技術・アーキテクチャ戦略について述べる。
オンデバイスSLMは実運用のモバイルアプリケーションでは有効であるが,開発者が基本的な制約を受け入れる場合にのみ有効であることを示す。
SLMをモバイルアプリに統合する実践者のために,私たちの経験を8つの実行可能な設計ヒューリスティックに抽出する。
関連論文リスト
- Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots [15.63408997133083]
DailyDroidは、25のAndroidアプリにまたがる5つのシナリオで75のタスクをベンチマークします。
GPT-4oとo4-miniのテキストのみとマルチモーダル(テキスト+スクリーンショット)入力を用いて300回の試験で評価し、マルチモーダル入力と同等の性能を示し、成功率を極端に向上させた。
論文 参考訳(メタデータ) (2026-04-20T05:15:14Z) - Review of Tools for Zero-Code LLM Based Application Development [0.6978180153516672]
大規模言語モデル(LLM)は、コード開発プラットフォームをゼロにすることで、ソフトウェア作成を変革している。
我々の調査では、LCMを開発プロセスの頭脳として活用することで、コードを書かずにアプリケーションを構築できる最近のプラットフォームについてレビューした。
論文 参考訳(メタデータ) (2025-10-22T16:41:16Z) - Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation [0.5336076422485075]
インターネット・オブ・Thingsデバイス、モバイル・プラットフォーム、自律システムのセキュリティ上の脆弱性は依然として重要だ。
従来の突然変異ベースのファジィザは、主に意味論的推論なしでバイトやビットレベルの編集を行う。
本稿では,Google の FuzzBench 上で LLM を AFL++ に統合するオープンソースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T19:57:29Z) - LLM Applications: Current Paradigms and the Next Frontier [8.214897650566494]
大規模言語モデル(LLM)の開発は、4つの主要なアプリケーションパラダイムを生み出した。
それぞれにメリットはあるが、共通の課題も共有している。
本稿では、これらのパラダイムをレビューし、分析し、アーキテクチャ設計、アプリケーションエコシステム、研究の進展、そして彼らが直面する課題とオープンな問題について述べる。
論文 参考訳(メタデータ) (2025-03-06T16:38:23Z) - LAMD: Context-driven Android Malware Detection and Classification with LLMs [8.582859303611881]
大きな言語モデル(LLM)は、ゼロショット推論と推論機能を備えた有望な代替手段を提供する。
LLMベースのAndroidマルウェア検出を実現するための現実的なコンテキスト駆動型フレームワークであるLAMDを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:01:37Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。