論文の概要: Ternarization of Vision Language Models for use on edge devices
- arxiv url: http://arxiv.org/abs/2504.06298v1
- Date: Mon, 07 Apr 2025 09:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:10.280016
- Title: Ternarization of Vision Language Models for use on edge devices
- Title(参考訳): エッジデバイスにおける視覚言語モデルのターナライズ
- Authors: Ben Crulis, Cyril De Runz, Barthelemy Serres, Gilles Venturini,
- Abstract要約: 本稿では,事前学習したビジョン言語モデルを,スクラッチから3次モデルをトレーニングする代わりに,その3次バージョンに圧縮するプロセスを提案する。
Lite Engine上で3次モデルを実行するために、さまざまなカスタム演算子を実装しています。
- 参考スコア(独自算出の注目度): 1.0749601922718608
- License:
- Abstract: We propose a process to compress a pre-trained Vision Language Model into a ternary version of itself instead of training a ternary model from scratch. A new initialization scheme from pre-trained weights based on the k-means algorithm is proposed to reduce the ternarization time. We implement different custom operators for executing the ternary model on the TensorFlow Lite Engine. We compare the original model with its ternary and binary versions in terms of memory consumption, inference speed and perplexity. We find that the ternary model using our custom ternary matrix multiplication operator provides a good compromise in term of memory usage and perplexity, while having the fastest token generation speed.
- Abstract(参考訳): 本稿では,事前学習したビジョン言語モデルを,スクラッチから3次モデルをトレーニングする代わりに,その3次バージョンに圧縮するプロセスを提案する。
k平均アルゴリズムに基づく事前学習重みからの新たな初期化手法を提案し,三値化時間を短縮した。
TensorFlow Lite Engine上で3次モデルを実行するために、さまざまなカスタム演算子を実装しています。
メモリ消費, 推論速度, パープレキシティの観点から, 元のモデルと3次バージョンと2次バージョンを比較した。
3次行列乗算演算子を用いた3次モデルでは,高速なトークン生成速度を保ちながら,メモリ使用量やパープレキシティの点で良好な妥協が得られることがわかった。
関連論文リスト
- Efficient Ternary Weight Embedding Model: Bridging Scalability and Performance [15.877771709013743]
本研究では,3次重み付き埋め込みモデルのためのファインタニングフレームワークを提案する。
プレトレーニング埋込みモデルに三元化を適用するため, 線形層の三元重みを確定するために, 自己学習型知識蒸留を導入する。
パブリックテキストとビジョンデータセットに関する広範な実験により、テナライズされたモデルは、有効性を犠牲にすることなく、低メモリ使用量を消費することを示した。
論文 参考訳(メタデータ) (2024-11-23T03:44:56Z) - RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Learning Decorrelated Representations Efficiently Using Fast Fourier
Transform [3.932322649674071]
高速フーリエ変換によりO(n d log d)時間で計算できる緩和された非相関正規化器を提案する。
提案した正則化器は、ダウンストリームタスクにおける既存の正則化器に匹敵する精度を示す。
論文 参考訳(メタデータ) (2023-01-04T12:38:08Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Lexically Constrained Neural Machine Translation with Levenshtein
Transformer [8.831954614241234]
本稿では,ニューラルネットワーク翻訳に語彙制約を組み込むための,単純かつ効果的なアルゴリズムを提案する。
提案手法は,デコード速度に影響を与えることなく,推論時に用語制約を注入する。
論文 参考訳(メタデータ) (2020-04-27T09:59:27Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。