論文の概要: Atom: Efficient On-Device Video-Language Pipelines Through Modular Reuse
- arxiv url: http://arxiv.org/abs/2512.17108v1
- Date: Thu, 18 Dec 2025 22:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.191725
- Title: Atom: Efficient On-Device Video-Language Pipelines Through Modular Reuse
- Title(参考訳): Atom: モジュールリユースによるデバイス上での効率的なビデオランゲージパイプライン
- Authors: Kunjal Panchal, Saayan Mitra, Somdeb Sarkhel, Haoliang Wang, Ishita Dasgupta, Gang Wu, Hui Guan,
- Abstract要約: Atomは、高速で効率的な実行のためにビデオ言語パイプラインを再構成するオンデバイスシステムである。
Atomは、非再利用ベースラインに比べて27~33%高速な実行を実現している。
これらの結果は、エッジデバイス上での効率的なビデオ言語理解のための実用的でスケーラブルなアプローチとしてAtomを位置づけている。
- 参考スコア(独自算出の注目度): 16.22284055785312
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in video-language models have enabled powerful applications like video retrieval, captioning, and assembly. However, executing such multi-stage pipelines efficiently on mobile devices remains challenging due to redundant model loads and fragmented execution. We introduce Atom, an on-device system that restructures video-language pipelines for fast and efficient execution. Atom decomposes a billion-parameter model into reusable modules, such as the visual encoder and language decoder, and reuses them across subtasks like captioning, reasoning, and indexing. This reuse-centric design eliminates repeated model loading and enables parallel execution, reducing end-to-end latency without sacrificing performance. On commodity smartphones, Atom achieves 27--33% faster execution compared to non-reuse baselines, with only marginal performance drop ($\leq$ 2.3 Recall@1 in retrieval, $\leq$ 1.5 CIDEr in captioning). These results position Atom as a practical, scalable approach for efficient video-language understanding on edge devices.
- Abstract(参考訳): ビデオ言語モデルの最近の進歩は、ビデオ検索、キャプション、アセンブリといった強力な応用を可能にしている。
しかし、そのようなマルチステージパイプラインをモバイルデバイスで効率的に実行することは、冗長なモデル負荷と断片化実行のため、依然として困難である。
私たちは、高速で効率的な実行のためにビデオ言語パイプラインを再構成するデバイス上のシステムAtomを紹介します。
Atomは、視覚エンコーダや言語デコーダなどの再利用可能なモジュールに10億パラメータモデルを分解し、キャプション、推論、インデックスといったサブタスクで再利用する。
この再利用中心の設計は、繰り返しモデルのロードを排除し、並列実行を可能にし、パフォーマンスを犠牲にすることなくエンドツーエンドのレイテンシを低減する。
一般向けスマートフォンでは、Atomは非再利用ベースラインに比べて27~33%高速な実行を実現している(検索で2.3 Recall@1、キャプションで1.5 CIDEr)。
これらの結果は、エッジデバイス上での効率的なビデオ言語理解のための実用的でスケーラブルなアプローチとしてAtomを位置づけている。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-30T13:17:49Z) - Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse [13.680753232748705]
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。
コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。
D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2025-06-17T01:59:10Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - LinguaLinked: A Distributed Large Language Model Inference System for
Mobile Devices [4.07532985236519]
LinguaLinkedは、モバイルデバイス上の分散分散大言語モデル(LLM)推論のためのシステムである。
推論性能の加速はシングルスレッド設定で1.11times$から1.61times$、マルチスレッドで1.73times$から2.65times$になる。
論文 参考訳(メタデータ) (2023-12-01T07:19:42Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。