論文の概要: OpenJarvis: Personal AI, On Personal Devices
- arxiv url: http://arxiv.org/abs/2605.17172v1
- Date: Sat, 16 May 2026 22:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.719796
- Title: OpenJarvis: Personal AI, On Personal Devices
- Title(参考訳): OpenJarvis:パーソナルデバイス上でのパーソナルAI
- Authors: Jon Saad-Falcon, Avanika Narayan, Robby Manihani, Tanvir Bhathal, Herumb Shandilya, Hakki Orhun Akengin, Gabriel Bo, Andrew Park, Matthew Hart, Caia Costello, Chuan Li, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: OpenJarvisは、5つのプリミティブにまたがる型付き仕様として、パーソナルAIシステムを表すアーキテクチャである。
各プリミティブは独立して編集可能なフィールドであり、スタックを最適化し、精度、コスト、レイテンシに対して測定することができる。
- 参考スコア(独自算出の注目度): 35.387857183518484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personal AI stacks, like OpenClaw and Hermes Agent, are becoming central to daily work, yet they route nearly every query (often over sensitive local data) to cloud-hosted frontier models. Replacing frontier models with local models inside existing stacks does not work: swapping Claude Opus 4.6 for Qwen3.5-9B drops accuracy by 25-39 pp across personal AI tasks like PinchBench and GAIA. Existing stacks bundle agentic prompts, tool descriptions, memory configuration, and runtime settings around a specific cloud model. Only the prompts can be tuned, and state-of-the-art prompt optimizers close just 5 pp of the local-cloud gap on their own. This motivates a decomposed personal AI stack: one that exposes individual primitives which can be optimized individually or jointly to close the local-cloud gap. We present OpenJarvis, an architecture that represents a personal AI system as a typed spec over five primitives: Intelligence, Engine, Agents, Tools & Memory, and Learning. Each primitive is an independently editable field, making the stack end-to-end optimizable and measurable against accuracy, cost, and latency. Towards closing the local-cloud gap without surrendering local-model properties, OpenJarvis introduces LLM-guided spec search, a local-cloud collaboration in which frontier cloud models propose edits across the spec at search time, only non-regressing edits are accepted, and the resulting spec runs entirely on-device at inference time. With LLM-guided spec search, on-device specs match or exceed cloud accuracy on 4 of 8 benchmarks and land within 3.2 pp of the best cloud baseline on average. They also reduce marginal API cost by ~800x and end-to-end latency by 4x.
- Abstract(参考訳): OpenClawやHermes AgentといったパーソナルAIスタックは、日々の作業の中心になっているが、ほとんどすべてのクエリ(多くの場合、機密性の高いローカルデータ)をクラウドにホストされたフロンティアモデルにルーティングする。
クロードオプス4.6をQwen3.5-9Bに置き換えると、PinchBenchやGAIAといったパーソナルAIタスクで精度が25-39pp低下する。
既存のスタックはエージェントプロンプト、ツール記述、メモリ設定、実行時設定を特定のクラウドモデルにバンドルする。
プロンプトのみをチューニング可能で、最先端のプロンプトオプティマイザは、ローカル-クラウドギャップのわずか5ppにすぎません。
個々のプリミティブを公開して、ローカルとクラウドのギャップを埋めるために、個別または共同で最適化できるものだ。
OpenJarvisは、インテリジェンス、エンジン、エージェント、ツール&メモリ、学習という5つのプリミティブのタイプドスペックとして、パーソナルAIシステムを表すアーキテクチャである。
各プリミティブは独立して編集可能なフィールドであり、スタックを最適化し、正確性、コスト、レイテンシに対して測定することができる。
OpenJarvisは、ローカルモデルプロパティを放棄することなく、ローカル-クラウドギャップを閉じるために、LLM誘導スペックサーチを導入している。これは、フロンティアクラウドモデルが検索時に仕様全体にわたって編集を提案し、非回帰編集のみが受け入れられ、その結果の仕様は完全に推論時にデバイス上で実行される、ローカル-クラウドコラボレーションである。
LLMによるスペックサーチでは、オンデバイス仕様は8つのベンチマークのうち4つのベンチマークでクラウドの精度と一致し、平均して3.2ppp以内に着陸する。
また、限界APIコストを約800倍削減し、エンドツーエンドのレイテンシを4倍削減する。
関連論文リスト
- MEME: Multi-entity & Evolving Memory Evaluation [76.57263966646404]
MEMEは、マルチエンタリティと進化する軸によって定義される全空間にまたがる6つのタスクを定義している。
3つの記憶パラダイムにまたがる6つの記憶システムの評価。
デフォルト設定の下では、すべてのシステムが依存性の推論で崩壊しているのが分かります。
論文 参考訳(メタデータ) (2026-05-12T17:55:10Z) - Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation [7.365191900032772]
プロファイルベースのシミュレータは標準的なツールだが、特定の設定に設定した操作をハードコードし、スクラッチからすべての操作を再認識する。
それぞれの操作の入力次元はモデル構成によって固定されるか、受信要求によって決定される。
構成に依存しない冗長性を考慮したプロファイリングを実現するために,この構造を利用するDoolyを提案する。
論文 参考訳(メタデータ) (2026-05-08T16:44:47Z) - MolmoAct2: Action Reasoning Models for Real-world Deployment [67.6315757474802]
MolmoAct2は、実用的なデプロイメントのために構築された、完全にオープンなアクション推論モデルである。
空間的および具体的推論に特化した VLM バックボーンである MolmoER を紹介する。
低コストプラットフォームにまたがる3つの新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2026-05-04T17:51:21Z) - AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs [14.167136550376497]
計算集約ドメインの完全な実験サイクルを自動化する自律的な研究ハーネスであるAlphaLabを紹介する。
ドメインに適応し、データを探索し、分析コードを書き、研究レポートを作成する。
Strategist/Workerループを通じて大規模な実験を実行し、永続的なプレイブックでドメイン知識を蓄積する。
論文 参考訳(メタデータ) (2026-03-31T21:16:20Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - Optimizing Cloud-to-GPU Throughput for Deep Learning With Earth Observation Data [4.487566270682721]
ペタバイト規模の地球観測(EO)データに基づくディープラーニングモデルのトレーニングには、データストレージから計算リソースを分離する必要がある。
標準的なPyTorchデータローダは、クラウドストレージから直接GeoTIFFファイルをストリーミングする際に、最新のGPUを利用できない。
クラウドオブジェクトストレージとローカルSSDの両方からGeoTIFFロードスループットをベンチマークし、異なるローダ構成とデータパラメータを体系的にテストする。
論文 参考訳(メタデータ) (2025-06-06T16:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。