論文の概要: FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference
- arxiv url: http://arxiv.org/abs/2510.22641v1
- Date: Sun, 26 Oct 2025 11:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.309834
- Title: FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference
- Title(参考訳): FastVLM: 高速ビジョンランゲージモデル推論のための自己投機的デコーディング
- Authors: Divya Jyoti Bajpai, Manjesh Kumar Hanawal,
- Abstract要約: 我々はこれらの制限に対処するために、FastVLMという模倣学習に基づく自己投機的デコーディングフレームワークを導入する。
当社のアプローチでは,トークン生成のための軽量なドラフトモデルを自己回帰的に採用し,完全なモデルでこれらのトークンを非自己回帰的に検証する。
提案手法は, 性能の低下を最小限に抑えた最終層と比較して, 1.55-1.85倍の推算処理を高速化する。
- 参考スコア(独自算出の注目度): 14.00844847268286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language Models (VLMs) have made significant strides in visual understanding and query response generation, but often face challenges of high computational cost and inference latency due to autoregressive decoding. In this work, we introduce an imitation-learning-based Self-Speculative Decoding (SSD) framework, named FastVLM, to address these limitations. Our approach employs a lightweight draft model for token generation in an autoregressive manner, while a full model verifies these tokens non-autoregressively. Accepted tokens proceed seamlessly, while rejected tokens are corrected by the full model and used to guide the draft model's refinement. Through an imitation network, FastVLM enhances the draft model by integrating deeper level insights from the full model's architecture. Also, it maintains the performance integrity of the full model while training the draft model, achieving a balance between efficiency and accuracy. Our method speeds up the inference process by 1.55-1.85x as compared to the final layer with minimal loss in performance.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的理解とクエリ応答生成において大きな進歩を遂げてきたが、しばしば自己回帰復号化による高い計算コストと推論遅延の課題に直面している。
本研究では,これらの制約に対処するために,FastVLMという,模倣学習に基づく自己投機的デコーディング(SSD)フレームワークを導入する。
当社のアプローチでは,トークン生成のための軽量なドラフトモデルを自己回帰的に採用し,完全なモデルでこれらのトークンを非自己回帰的に検証する。
承認されたトークンはシームレスに進行するが、拒否されたトークンは完全なモデルによって修正され、ドラフトモデルの洗練を導くために使用される。
模倣ネットワークを通じて、FastVLMは、完全なモデルのアーキテクチャからより深いレベルの洞察を統合することで、ドラフトモデルを強化する。
また、ドラフトモデルをトレーニングしながら、完全なモデルのパフォーマンスの整合性を維持し、効率性と精度のバランスを達成する。
提案手法は, 性能の低下を最小限に抑えた最終層と比較して, 1.55-1.85倍の推算処理を高速化する。
関連論文リスト
- Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - TokenTiming: A Dynamic Alignment Method for Universal Speculative Decoding Model Pairs [12.056664630923896]
投機的復号化は推論効率を大幅に向上させる。
ドラフトとターゲットモデルは、同じ語彙を共有しなければならない。
普遍的な投機的復号化のためのアルゴリズムTokenTimingを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:25:36Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。