Fugu-MT 論文翻訳(概要): Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving

論文の概要: Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving

arxiv url: http://arxiv.org/abs/2409.11182v1
Date: Mon, 16 Sep 2024 05:31:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 16:35:30.186054
Title: Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving
Title（参考訳）: 自律運転における効率的なマルチモーダルLCMのためのビデオトケスペーシング
Authors: Yunsheng Ma, Amr Abdelraouf, Rohit Gupta, Ziran Wang, Kyungtae Han,
Abstract要約: MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。 1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
参考スコア（独自算出の注目度）: 9.900979396513687
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable potential for enhancing scene understanding in autonomous driving systems through powerful logical reasoning capabilities. However, the deployment of these models faces significant challenges due to their substantial parameter sizes and computational demands, which often exceed the constraints of onboard computation. One major limitation arises from the large number of visual tokens required to capture fine-grained and long-context visual information, leading to increased latency and memory consumption. To address this issue, we propose Video Token Sparsification (VTS), a novel approach that leverages the inherent redundancy in consecutive video frames to significantly reduce the total number of visual tokens while preserving the most salient information. VTS employs a lightweight CNN-based proposal model to adaptively identify key frames and prune less informative tokens, effectively mitigating hallucinations and increasing inference throughput without compromising performance. We conduct comprehensive experiments on the DRAMA and LingoQA benchmarks, demonstrating the effectiveness of VTS in achieving up to a 33\% improvement in inference throughput and a 28\% reduction in memory usage compared to the baseline without compromising performance.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)は、強力な論理的推論能力を通じて、自律運転システムにおけるシーン理解を強化する重要な可能性を実証している。しかし、これらのモデルの展開は、かなりのパラメータサイズと計算要求が、しばしばオンボード計算の制約を超えているため、重大な課題に直面している。 1つの大きな制限は、細粒度で長いコンテキストの視覚情報をキャプチャするために必要な大量の視覚トークンから生じ、レイテンシとメモリ消費が増大する。この問題に対処するために,ビデオトークンスペーシング(VTS)を提案する。これは連続するビデオフレームにおける固有の冗長性を生かし,視覚トークンの総数を大幅に削減し,最も有能な情報を保存する新しい手法である。 VTSは軽量なCNNベースの提案モデルを用いて、キーフレームを適応的に識別し、少ない情報トークンをプーンし、幻覚を効果的に緩和し、性能を損なうことなく推論スループットを向上する。我々は,DRAMA と LingoQA ベンチマークの総合的な実験を行い,VTS が推論スループットを最大で 33 % 改善し,メモリ使用量を 228 % 削減できることを示す。

関連論文リスト

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。 KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文参考訳（メタデータ） (2025-03-13T17:47:52Z)
Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2025-01-29T02:52:32Z)
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。 FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文参考訳（メタデータ） (2025-01-05T03:28:45Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。 GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文参考訳（メタデータ） (2024-06-28T17:57:14Z)
Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文参考訳（メタデータ） (2024-04-25T12:11:38Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Video-based Person Re-identification with Long Short-Term Representation Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T16:22:47Z)
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文参考訳（メタデータ） (2023-05-24T11:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。