Fugu-MT 論文翻訳(概要): VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation

論文の概要: VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation

arxiv url: http://arxiv.org/abs/2409.08464v1
Date: Fri, 13 Sep 2024 01:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 18:07:55.082752
Title: VLTP: Vision-Language Guided Token Pruning for Task-Oriented Segmentation
Title（参考訳）: VLTP:タスク指向セグメンテーションのためのビジョンランゲージガイドトケンプルーニング
Authors: Hanning Chen, Yang Ni, Wenjun Huang, Yezi Liu, SungHeon Jeong, Fei Wen, Nathaniel Bastian, Hugo Latapie, Mohsen Imani,
Abstract要約: ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、ViTベースのセグメンテーションモデルを高速化する新しいトークンプルーニングメカニズムを紹介した。
参考スコア（独自算出の注目度）: 18.9885501527331
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViTs) have emerged as the backbone of many segmentation models, consistently achieving state-of-the-art (SOTA) performance. However, their success comes at a significant computational cost. Image token pruning is one of the most effective strategies to address this complexity. However, previous approaches fall short when applied to more complex task-oriented segmentation (TOS), where the class of each image patch is not predefined but dependent on the specific input task. This work introduces the Vision Language Guided Token Pruning (VLTP), a novel token pruning mechanism that can accelerate ViTbased segmentation models, particularly for TOS guided by multi-modal large language model (MLLM). We argue that ViT does not need to process every image token through all of its layers only the tokens related to reasoning tasks are necessary. We design a new pruning decoder to take both image tokens and vision-language guidance as input to predict the relevance of each image token to the task. Only image tokens with high relevance are passed to deeper layers of the ViT. Experiments show that the VLTP framework reduces the computational costs of ViT by approximately 25% without performance degradation and by around 40% with only a 1% performance drop.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)は多くのセグメンテーションモデルのバックボーンとして登場し、常に最先端(SOTA)のパフォーマンスを実現している。しかし、その成功は計算コストがかなり高い。画像トークンのプルーニングは、この複雑さに対処する最も効果的な戦略の1つである。しかし、以前のアプローチはより複雑なタスク指向セグメンテーション(TOS)に適用された場合、各イメージパッチのクラスは事前に定義されていないが、特定の入力タスクに依存する。この研究は、VLTP(Vision Language Guided Token Pruning)を導入し、VTベースのセグメンテーションモデル、特にMLLM(Multi-modal large language model)でガイドされるTOSを高速化する新しいトークンプルーニングメカニズムを紹介した。 ViTはすべてのイメージトークンをすべてのレイヤを通して処理する必要はありませんが、推論タスクに関連するトークンが必要なのです。画像トークンと視覚言語誘導の両方を入力として、タスクに対する各画像トークンの関連性を予測する新しいプルーニングデコーダを設計する。関連性の高い画像トークンのみがViTの深い層に渡される。実験の結果,VLTPフレームワークは性能劣化を伴わずにViTの計算コストを約25%削減し,性能低下を1%に抑えることができた。

関連論文リスト

ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文参考訳（メタデータ） (2025-10-20T06:18:47Z)
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。 PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。 MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-10-02T12:23:57Z)
EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models [8.397725938541381]
命令されたビジュアルタスクは、自然言語命令に基づいた画像やビデオ内のオブジェクトのセグメンテーションを必要とする。最近のマルチモーダル大言語モデル(MLLM)は、ISV上では高いパフォーマンスを達成しているが、その推論コストは依然として大きなボトルネックとなっている。我々は,空間情報を統合することで,k中心上に構築されたEVTP-IVと呼ばれる新しい視覚的トークンのプルーニング手法を提案する。
論文参考訳（メタデータ） (2025-08-16T03:16:33Z)
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition [8.07235516190038]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。最近の研究は、トークンの数を減らし、効果的にプーンしたりマージする方法に重点を置いている。本稿では,視覚変換器の新たな再トークン化戦略であるImagePieceを提案する。
論文参考訳（メタデータ） (2024-12-21T05:38:20Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
LookupViT: Compressing visual information to a limited number of tokens [36.83826969693139]
ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
論文参考訳（メタデータ） (2024-07-17T17:22:43Z)
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-05T14:13:50Z)
No Token Left Behind: Efficient Vision Transformer via Dynamic Token Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。 ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文参考訳（メタデータ） (2023-10-09T12:10:41Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文参考訳（メタデータ） (2023-07-05T08:10:17Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
Patch-level Representation Learning for Self-supervised Vision Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文参考訳（メタデータ） (2022-06-16T08:01:19Z)
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。 T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文参考訳（メタデータ） (2021-01-28T13:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。