Fugu-MT 論文翻訳(概要): Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model

論文の概要: Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model

arxiv url: http://arxiv.org/abs/2412.04729v3
Date: Fri, 16 May 2025 14:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:11.677506
Title: Espresso: High Compression For Rich Extraction From Videos for Your Vision-Language Model
Title（参考訳）: Espresso:視覚言語モデルのためのビデオからのリッチな抽出のための高圧縮
Authors: Keunwoo Peter Yu, Achal Dave, Rares Ambrus, Jean Mercat,
Abstract要約: 固定長シーケンスに空間的特徴と時間的特徴を別々に圧縮する新しいアーキテクチャである$textttEspresso$を導入する。実験により、固定長圧縮とセグメントワイド処理を組み合わせることで、プールベースのアプローチに代わるスケーラブルで競争力のある代替手段が提供されることが示された。
参考スコア（独自算出の注目度）: 15.320117192047265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in vision-language models (VLMs) have shown great promise in connecting images and text, but extending these models to long videos remains challenging due to the rapid growth in token counts. Models that compress videos by local aggregation in time or space have become popular for handling long-form inputs; however, these pooling-based projectors sacrifice the benefits of fixed-length representations that are crucial for streaming and efficient video understanding. We introduce $\texttt{Espresso}$, a new architecture that separately compresses spatial and temporal features into fixed-length sequences. $\texttt{Espresso}$ enables efficient video encoding while maintaining strong long-form reasoning capabilities. Experiments show that fixed-length compression combined with segment-wise processing offers a scalable and competitive alternative to pooling-based approaches. Our results demonstrate that fixed-length projectors, when properly designed and trained, remain a viable foundation for video-language modeling.
Abstract（参考訳）: 近年の視覚言語モデル(VLM)の進歩は画像とテキストの接続において大きな可能性を秘めているが、トークン数の増加により長編ビデオに拡張することは困難である。時間や空間の局所的な集約によってビデオを圧縮するモデルは、長い形式の入力を扱うのに人気があるが、これらのプールベースのプロジェクタは、ストリーミングと効率的なビデオ理解に不可欠な固定長表現の利点を犠牲にしている。固定長列に空間的特徴と時間的特徴を別々に圧縮する新しいアーキテクチャである$\texttt{Espresso}$を導入する。 $\texttt{Espresso}$は、強力なロングフォーム推論機能を維持しながら、効率的なビデオエンコーディングを可能にする。実験により、固定長圧縮とセグメントワイド処理を組み合わせることで、プールベースのアプローチに代わるスケーラブルで競争力のある代替手段が提供されることが示された。この結果から,固定長プロジェクタが適切に設計・訓練された場合でも,ビデオ言語モデリングの基盤として有効であることが示唆された。

関連論文リスト

LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
Slow-Fast Architecture for Video Multi-Modal Large Language Models [42.3957835391319]
既存の方法では、事前に定義されたルールを使用してビデオ表現を圧縮し、マルチモーダルな大言語モデルに入力する。本稿では、このトレードオフを自然に回避し、空間的詳細を保存しながらより多くの入力フレームを使用できる、新しい低速アーキテクチャを提案する。提案モデルでは,入力容量を16フレームから128フレームに拡張し,計算能力は3%向上した。
論文参考訳（メタデータ） (2025-04-02T03:24:58Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
EVE: Towards End-to-End Video Subtitle Extraction with Vision-Language Models [27.726733116479668]
本稿では,視覚エンコーダ,アダプタモジュール,大規模言語モデルという3つのモジュールからなる,EVEと呼ばれるエンドツーエンドビデオ字幕抽出手法を提案する。視覚エンコーダから視覚トークンを効果的に圧縮するために,2つのモダリティをインターリーブする新しいアダプタInterleavedVTを提案する。ビデオ字幕抽出タスクをベンチマークするために,2.5Mビデオを含む大規模なデータセットViSaを提案する。
論文参考訳（メタデータ） (2025-03-06T03:19:56Z)
Fine-Grained Captioning of Long Videos through Scene Graph Consolidation [44.30028794237688]
グラフ統合に基づく長大なビデオキャプションのための新しいフレームワークを提案する。提案手法はまず,個々のフレームや短いビデオ間隔に対応するセグメントレベルのキャプションを生成する。軽量なグラフからテキストへのデコーダが最後にビデオレベルのキャプションを生成する。
論文参考訳（メタデータ） (2025-02-23T03:59:05Z)
Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。時間圧縮を強化するための代替手法を提案する。本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文参考訳（メタデータ） (2025-01-09T18:55:15Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-12-23T18:58:24Z)
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models [64.9366388601049]
ビジュアルトークン圧縮は、視覚入力の相当なトークン長を減らすために利用される。我々は,プログレッシブ・ビジュアル・トークン圧縮と呼ばれる統一的なトークン圧縮戦略を導入する。本モデルは,様々なビデオ理解ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-12T18:59:40Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models [25.668485023831874]
VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
論文参考訳（メタデータ） (2024-10-15T09:07:25Z)
Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文参考訳（メタデータ） (2024-09-22T15:13:31Z)
VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。 LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文参考訳（メタデータ） (2024-06-18T05:05:12Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文参考訳（メタデータ） (2023-09-20T18:13:32Z)
Exploring Long- and Short-Range Temporal Information for Learned Video Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。本稿では,マルチスケール補償を実現する階層構造を設計する。
論文参考訳（メタデータ） (2022-08-07T15:57:18Z)
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method [6.172652648945223]
本稿では,テキストを用いた指導ビデオの高速化を目的とした,弱教師付き手法を提案する。新たな共同報酬関数がエージェントを誘導し、どのフレームから入力ビデオを取り除き、ターゲット長に減らすかを選択する。また,高度に識別可能な埋め込み空間を生成可能な拡張視覚誘導型文書注意ネットワーク(VDAN+)を提案する。
論文参考訳（メタデータ） (2022-03-29T17:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。