論文の概要: BitMar: Low-Bit Multimodal Fusion with Episodic Memory for Edge Devices
- arxiv url: http://arxiv.org/abs/2510.10560v1
- Date: Sun, 12 Oct 2025 11:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.008224
- Title: BitMar: Low-Bit Multimodal Fusion with Episodic Memory for Edge Devices
- Title(参考訳): BitMar:エッジデバイスのためのエピソードメモリを備えた低ビットマルチモーダル核融合
- Authors: Euhid Aman, Esteban Carlin, Hsing-Kuo Pao, Giovanni Beltrame, Ghaluh Indah Permata Sari, Yie-Tarng Chen,
- Abstract要約: クロスアテンション変換器や他のマルチモーダル視覚言語モデルは、接地および生成において優れている。
メモリ拡張アーキテクチャは、過去のコンテキストの利用を促進するが、ほとんどの研究は、攻撃的なエッジ指向の量子化と組み合わせることは滅多にない。
本稿では,限られたリソースを持つハードウェア上での効率的な画像テキスト生成のために,外部のヒューマンライクなエピソードメモリを提案する量子化マルチモーダルトランスフォーマーBitMarを紹介する。
- 参考スコア(独自算出の注目度): 5.330241061645485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-attention transformers and other multimodal vision-language models excel at grounding and generation; however, their extensive, full-precision backbones make it challenging to deploy them on edge devices. Memory-augmented architectures enhance the utilization of past context; however, most works rarely pair them with aggressive edge-oriented quantization. We introduce BitMar, a quantized multimodal transformer that proposes an external human-like episodic memory for effective image-text generation on hardware with limited resources. BitMar utilizes 1.58-bit encoders, one for text (BitNet-style) and one for vision (DiNOv2-based), to create compact embeddings that are combined and used to query a fixed-size key-value episodic memory. During vector retrieval, the BitNet decoder applies per-layer conditioning, which increases the contextual relevance of generated content. The decoder also employs attention sinks with a sliding-window mechanism to process long or streaming inputs under tight memory budgets. The combination of per-layer conditioning and sliding-window attention achieves a strong quality-speed trade-off, delivering competitive captioning and multimodal understanding at low latency with a small model footprint. These characteristics make BitMar well-suited for edge deployment.
- Abstract(参考訳): クロスアテンショントランスフォーマーや他のマルチモーダル視覚言語モデルは、接地および生成において優れているが、その広範囲で完全なバックボーンは、エッジデバイスにそれらをデプロイすることを困難にしている。
メモリ拡張アーキテクチャは、過去のコンテキストの利用を促進するが、ほとんどの研究は、攻撃的なエッジ指向の量子化と組み合わせることは滅多にない。
本稿では,限られたリソースを持つハードウェア上での効率的な画像テキスト生成のために,外部のヒューマンライクなエピソードメモリを提案する量子化マルチモーダルトランスフォーマーBitMarを紹介する。
BitMarはテキスト用(BitNetスタイル)と視覚用(DiNOv2ベース)の1.58ビットエンコーダを使用して、固定サイズのキー値エピソードメモリに結合して使用するコンパクトな埋め込みを生成する。
ベクトル検索中、BitNetデコーダは層ごとの条件付けを適用し、生成されたコンテンツのコンテキスト的関連性を高める。
デコーダはまた、スライディングウインドウ機構を備えた注意シンクを使用して、厳しいメモリ予算の下で長いまたはストリーミング入力を処理する。
層間条件付けとスライディング・ウインドウ・アテンションの組み合わせは、強力な品質と速度のトレードオフを実現し、小さなモデルフットプリントで低レイテンシで競合キャプションとマルチモーダル理解を実現する。
これらの特徴により、BitMarはエッジデプロイメントに適している。
関連論文リスト
- XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - BiVM: Accurate Binarized Neural Network for Efficient Video Matting [56.000594826508504]
リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。
ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。
BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
論文 参考訳(メタデータ) (2025-07-06T16:32:37Z) - mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文 参考訳(メタデータ) (2025-07-02T15:44:35Z) - Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。
本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文 参考訳(メタデータ) (2025-05-25T10:57:35Z) - Compact Recurrent Transformer with Persistent Memory [16.48606806238812]
Transformerアーキテクチャは多くの言語処理と視覚タスクで大きな成功を収めている。
高速なCRT(Compact Recurrent Transformer)を提案する。
CRTは、短いローカルセグメントを処理する浅層トランスフォーマーモデルとリカレントニューラルネットワークを組み合わせて、単一の永続メモリベクトルを圧縮および管理する。
我々は,WordPTBとWikiText-103のCRTとToyota Smarthomeのビデオデータセットの分類を行った。
論文 参考訳(メタデータ) (2025-05-02T00:11:44Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Boosting Mobile CNN Inference through Semantic Memory [12.45440733435801]
デバイス上のCNN推論を改善するためのセマンティックメモリ設計を開発する。
SMTMは、関心のあるオブジェクトの長いテール分布を利用するために階層型メモリアーキテクチャを採用している。
標準的なアプローチ(最大2倍)や以前のキャッシュ設計(最大1.5倍)よりもモデル推論を大幅に高速化し、精度の低下を許容できる。
論文 参考訳(メタデータ) (2021-12-05T18:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。