論文の概要: GRATING: Low-Latency and Memory-Efficient Semantic Selection on Device
- arxiv url: http://arxiv.org/abs/2510.15620v1
- Date: Fri, 17 Oct 2025 13:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.628491
- Title: GRATING: Low-Latency and Memory-Efficient Semantic Selection on Device
- Title(参考訳): GRating:デバイス上での低レイテンシとメモリ効率のセマンティック選択
- Authors: Jiahao Zhou, Chengliang Lin, Dingji Li, Mingkai Dong, Haibo Chen,
- Abstract要約: クロスエンコーダリランカによるトップK選択は、検索強化生成、エージェントメモリ、パーソナライズされたレコメンデーションなど、デバイス上のAIサービスを支えるものだ。
トップK選択の目的を再考し、相対ランクのみが重要であり、正確な候補毎のスコアではないことを明らかにした。
我々はモノリシックフォワードを提案し、トレーニング不要な推論システムGRatingを開発した。
- 参考スコア(独自算出の注目度): 1.7847219315073477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic top-K selection with cross-encoder rerankers underpins of on-device AI services, such as retrieval-augmented generation, agent memory, and personalized recommendation. However, its latency and memory demands dominate end-to-end budgets on edge hardware. Revisiting the objective of top-K selection, we reveal that only relative rankings matter, not exact per-candidate scores. We further observe sequence-level sparsity: relative rankings stabilize early in intermediate layers, allowing pruning opportunities prior to completing full inference. Building on this insight, we propose monolithic forwarding and develop a training-free inference system, GRATING. By maintaining a global view of all candidates, it reduces latency through progressive cluster pruning. It also bounds peak memory usage by strategically overlapping I/O with computation via dual-layer sliding window and chunked execution. We evaluate GRATING against state-of-the-art baselines on rerankers from 0.6B to 8B parameters across Apple M2 and RTX 5070. GRATING consistently reduces latency by up to 89.0% and peak memory by up to 94.9% in microbenchmarks, without any loss in precision. Across three real-world on-device AI applications, GRATING lowers latency by 11.6%-51.0% and peak memory by 18.6%-77.8%, demonstrating substantial improvements in efficiency and deployability.
- Abstract(参考訳): クロスエンコーダリランカによるセマンティックトップK選択は、検索強化生成、エージェントメモリ、パーソナライズされたレコメンデーションなど、デバイス上のAIサービスを支えるものだ。
しかし、そのレイテンシとメモリ要求は、エッジハードウェアのエンドツーエンドの予算を支配している。
トップK選択の目的を再考し、相対ランクのみが重要であり、正確な候補毎のスコアではないことを明らかにした。
相対ランクは中間層で早期に安定し、完全な推論が完了する前にプルーニングの機会を確保できる。
この知見に基づいて、モノリシックフォワードを提案し、トレーニング不要な推論システムGRatingを開発した。
すべての候補のグローバルビューを維持することで、プログレッシブクラスタプルーニングによるレイテンシ低減を実現している。
また、2層スライディングウィンドウとチャンク実行による計算により、戦略的にI/Oをオーバーラップすることでピークメモリ使用量を制限している。
我々は,Apple M2 と RTX 5070 で0.6B から 8B パラメータのリランカーに対する最先端のベースラインに対するグラデーションを評価した。
グレーティングは、レイテンシを最大89.0%、ピークメモリを最大94.9%削減する。
3つの実世界のオンデバイスAIアプリケーション全体で、GRratingはレイテンシを11.6%-51.0%、ピークメモリを18.6%-77.8%削減し、効率とデプロイ性を大幅に改善した。
関連論文リスト
- Adaptive Execution Scheduler for DataDios SmartDiff [0.0]
2つの実行モードを持つ1つの差分エンジン(SmartDiff)に対する適応型スケジューラを提案する。
スケジューラは、CPUとメモリの固定予算内でバッチサイズとワーカー/スレッド数を調整し、p95レイテンシを最小限にする。
合成と公開のベンチマークで、スケジューラは、調整したウォームアップに比べて、p95のレイテンシを23~28%削減する。
論文 参考訳(メタデータ) (2025-10-09T05:40:16Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Puppeteer: A Random Forest-based Manager for Hardware Prefetchers across
the Memory Hierarchy [1.5049442691806052]
そこで我々はPuppeteerを,ランダムなフォレスト回帰器のスイートを用いて,メモリ階層の各レベルにおいてどのプレフェッシャーをオンすべきかを実行時に決定するハードウェアプレフェッシャーマネージャとして提案する。
Puppeteerを使うことで、1 Core (1C) で46.4%、4 Core (4C) で25.8%、SPEC 2017 SPEC2006と10KBのオーバーヘッドを持つクラウドスイートで平均して8 Core (8C) プロセッサで11.9%改善できる。
論文 参考訳(メタデータ) (2022-01-28T10:25:12Z) - Edge AI without Compromise: Efficient, Versatile and Accurate
Neurocomputing in Resistive Random-Access Memory [0.0]
我々は,RRAM CIMを用いた最初のマルチモーダルエッジAIチップであるNeuRRAMを提案する。
計算ビット精度の異なる先行技術よりも, 5 倍のエネルギー効率を 5 倍から 8 倍に向上することを示す。
この作業は、高度に効率的で再構成可能なエッジAIハードウェアプラットフォームを構築するための道を開くものだ。
論文 参考訳(メタデータ) (2021-08-17T21:08:51Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。