論文の概要: When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
- arxiv url: http://arxiv.org/abs/2507.20198v3
- Date: Wed, 30 Jul 2025 01:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.835237
- Title: When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios
- Title(参考訳): トーケンの話題が多すぎる: 画像, ビデオ, オーディオにおけるマルチモーダル・ロングコンテキスト・トーケン圧縮に関する調査
- Authors: Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang,
- Abstract要約: MLLM(Multimodal large language model)は、より長く複雑なコンテキストを処理する。
トークン圧縮は、トレーニングと推論の両方でトークンの数を効率的に削減する、目立たしく批判的なアプローチとして登場した。
本稿では,マルチモーダル長コンテキストトークン圧縮の発芽領域に関する最初の体系的調査と合成について述べる。
- 参考スコア(独自算出の注目度): 27.220318661244242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have made remarkable strides, largely driven by their ability to process increasingly long and complex contexts, such as high-resolution images, extended video sequences, and lengthy audio input. While this ability significantly enhances MLLM capabilities, it introduces substantial computational challenges, primarily due to the quadratic complexity of self-attention mechanisms with numerous input tokens. To mitigate these bottlenecks, token compression has emerged as an auspicious and critical approach, efficiently reducing the number of tokens during both training and inference. In this paper, we present the first systematic survey and synthesis of the burgeoning field of multimodal long context token compression. Recognizing that effective compression strategies are deeply tied to the unique characteristics and redundancies of each modality, we categorize existing approaches by their primary data focus, enabling researchers to quickly access and learn methods tailored to their specific area of interest: (1) image-centric compression, which addresses spatial redundancy in visual data; (2) video-centric compression, which tackles spatio-temporal redundancy in dynamic sequences; and (3) audio-centric compression, which handles temporal and spectral redundancy in acoustic signals. Beyond this modality-driven categorization, we further dissect methods based on their underlying mechanisms, including transformation-based, similarity-based, attention-based, and query-based approaches. By providing a comprehensive and structured overview, this survey aims to consolidate current progress, identify key challenges, and inspire future research directions in this rapidly evolving domain. We also maintain a public repository to continuously track and update the latest advances in this promising area.
- Abstract(参考訳): MLLM(Multimodal large language model)は、高解像度画像、拡張されたビデオシーケンス、長い音声入力などの、ますます長く複雑なコンテキストを処理する能力によって、顕著な進歩を遂げている。
この能力はMLLMの能力を大幅に向上させるが、主に多数の入力トークンを持つ自己保持機構の2次複雑さのため、かなりの計算課題が生じる。
これらのボトルネックを軽減するために、トークン圧縮は目立たしく重要なアプローチとして現れ、トレーニングと推論の両方でトークンの数を効率的に削減している。
本稿では,マルチモーダル長コンテキストトークン圧縮の新興分野に関する最初の体系的調査と合成について述べる。
実効圧縮戦略が各モダリティの特徴と冗長性に深く結びついていることを認識し,従来の手法を主データ焦点で分類し,(1)視覚データにおける空間的冗長性に対処する画像中心圧縮,(2)動的シーケンスにおける時空間冗長性に対処するビデオ中心圧縮,(3)音響信号における時間的冗長性とスペクトル的冗長性を扱う音声中心圧縮など,特定の領域に適応した手法の迅速なアクセスと学習を可能にする。
このモダリティ駆動の分類以外にも、変換ベース、類似性ベース、注意ベース、クエリベースのアプローチなど、その基盤となるメカニズムに基づいてメソッドを識別する。
本調査は、包括的かつ構造化された概要を提供することにより、現在の進歩を集約し、重要な課題を特定し、この急速に発展する領域における将来の研究方向性を刺激することを目的としている。
この将来性のある領域における最新の進歩を継続的に追跡し、更新するためのパブリックリポジトリも維持しています。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。
このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。
LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-07-16T06:16:06Z) - Shifting AI Efficiency From Model-Centric to Data-Centric Compression [33.41504505470217]
効率的なAIの研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と我々は主張する。
我々はトークン圧縮を新たなフロンティアとして位置づけ、モデルトレーニングや推論中にトークンの数を減らすことでAI効率を向上させる。
論文 参考訳(メタデータ) (2025-05-25T13:51:17Z) - Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。
本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。
複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。
提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。