論文の概要: Recall: Empowering Multimodal Embedding for Edge Devices
- arxiv url: http://arxiv.org/abs/2409.15342v1
- Date: Mon, 09 Sep 2024 22:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-30 06:32:25.156883
- Title: Recall: Empowering Multimodal Embedding for Edge Devices
- Title(参考訳): リコール:エッジデバイスへのマルチモーダル埋め込みの強化
- Authors: Dongqi Cai, Shangguang Wang, Chen Peng, Zeling Zhang, Mengwei Xu,
- Abstract要約: 本稿では,リソース制限されたモバイル環境向けに最適化された新しいデバイス上でのマルチモーダル埋め込みシステムRECALLを紹介する。
RECALLはメモリとエネルギー消費を最小限に抑えながら、高いスループットで高品質な埋め込みを実現する。
- 参考スコア(独自算出の注目度): 7.644853218944893
- License:
- Abstract: Human memory is inherently prone to forgetting. To address this, multimodal embedding models have been introduced, which transform diverse real-world data into a unified embedding space. These embeddings can be retrieved efficiently, aiding mobile users in recalling past information. However, as model complexity grows, so do its resource demands, leading to reduced throughput and heavy computational requirements that limit mobile device implementation. In this paper, we introduce RECALL, a novel on-device multimodal embedding system optimized for resource-limited mobile environments. RECALL achieves high-throughput, accurate retrieval by generating coarse-grained embeddings and leveraging query-based filtering for refined retrieval. Experimental results demonstrate that RECALL delivers high-quality embeddings with superior throughput, all while operating unobtrusively with minimal memory and energy consumption.
- Abstract(参考訳): 人間の記憶は本質的に忘れやすい。
これを解決するために、様々な現実世界のデータを統一的な埋め込み空間に変換するマルチモーダル埋め込みモデルが導入された。
これらの埋め込みは効率的に検索でき、モバイルユーザーが過去の情報を思い出すのを助ける。
しかし、モデルの複雑さが増大するにつれて、そのリソース要求も増加し、スループットが低下し、モバイルデバイスの実装が制限される重い計算要求が発生する。
本稿では,リソース制限されたモバイル環境に最適化されたデバイス上でのマルチモーダル埋め込みシステムであるRECALLを紹介する。
RECALLは粗粒の埋め込みを生成し、クエリベースのフィルタリングを利用して精細な検索を行う。
実験の結果,RECALLはメモリとエネルギー消費を最小限に抑えながら,高いスループットで高品質な埋め込みを実現することがわかった。
関連論文リスト
- Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - Robust Implementation of Retrieval-Augmented Generation on Edge-based Computing-in-Memory Architectures [26.183960625493807]
エッジデバイスにデプロイされる大規模言語モデル(LLM)は、微調整とパラメータの特定の部分の更新を通じて学習する。
Retrieval-Augmented Generation (RAG) は資源効率の高いLLM学習手法である。
本稿では,コンピューティング・イン・メモリ(CiM)アーキテクチャを用いてRAGを高速化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T22:31:50Z) - Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls [22.49750818224266]
リアルタイムなインテリジェントなアプリケーションのために、リソース制約のあるモバイルデバイスに計算集約型ディープラーニング(DL)モデルをデプロイする需要が高まっている。
モバイルデバイスは、異種プロセッサ間の並列実行を通じてDL推論を加速する可能性を秘めている。
本稿では、異種モバイルプロセッサ上での並列DL推論に関連する機能と課題を評価するための総合的研究について述べる。
論文 参考訳(メタデータ) (2024-05-03T04:47:23Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。