論文の概要: Local Information Matters: Inference Acceleration For Grounded Conversation Generation Models Through Adaptive Local-Aware Token Pruning
- arxiv url: http://arxiv.org/abs/2503.23959v2
- Date: Tue, 01 Apr 2025 08:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 10:23:31.653078
- Title: Local Information Matters: Inference Acceleration For Grounded Conversation Generation Models Through Adaptive Local-Aware Token Pruning
- Title(参考訳): 局所情報量:適応的局所認識型トーケンプルーニングによる接地会話生成モデルの推論高速化
- Authors: Bizhe Bai, Jianjian Cao, Yadan Luo, Tao Chen,
- Abstract要約: Grounded Conversation Generation (GCG)は、オブジェクトセグメンテーションマスクとシームレスに連動する自然言語応答を生成するモデルを必要とする、新たなビジョンタスクである。
GLaMMやOMG-LLaVAといった最近のモデルは、多数の視覚トークンを処理するため、ピクセルレベルのグラウンド化を実現するが、かなりの計算コストがかかる。
FastV や PyramidDrop のような既存のトークンプルーニング手法は、正確な接地に不可欠な局所的な視覚的特徴を保存できない。
- 参考スコア(独自算出の注目度): 8.834576743523769
- License:
- Abstract: Grounded Conversation Generation (GCG) is an emerging vision-language task that requires models to generate natural language responses seamlessly intertwined with corresponding object segmentation masks. Recent models, such as GLaMM and OMG-LLaVA, achieve pixel-level grounding but incur significant computational costs due to processing a large number of visual tokens. Existing token pruning methods, like FastV and PyramidDrop, fail to preserve the local visual features critical for accurate grounding, leading to substantial performance drops in GCG tasks. To address this, we propose Adaptive Local-Aware Token Pruning (ALTP), a simple yet effective framework that accelerates GCG models by prioritizing local object information. ALTP introduces two key components: (1) Detail Density Capture (DDC), which uses superpixel segmentation to retain tokens in object-centric regions, preserving fine-grained details, and (2) Dynamic Density Formation (DDF), which dynamically allocates tokens based on information density, ensuring higher retention in semantically rich areas. Extensive experiments on the GranDf dataset demonstrate that ALTP significantly outperforms existing token pruning methods, such as FastV and PyramidDrop, on both GLaMM and OMG-LLaVA models. Notably, when applied to GLaMM, ALTP achieves a 90% reduction in visual tokens with a 4.9% improvement in AP50 and a 5.0% improvement in Recall compared to PyramidDrop. Similarly, on OMG-LLaVA, ALTP improves AP by 2.1% and mIOU by 3.0% at a 90% token reduction compared with PDrop.
- Abstract(参考訳): Grounded Conversation Generation (GCG)は、オブジェクトセグメンテーションマスクとシームレスに連動する自然言語応答を生成するモデルを必要とする、新しい視覚言語タスクである。
GLaMMやOMG-LLaVAといった最近のモデルは、多数の視覚トークンを処理するため、ピクセルレベルのグラウンド化を実現するが、かなりの計算コストがかかる。
FastVやPraamidDropのような既存のトークンプルーニングメソッドは、正確なグラウンドに不可欠なローカルビジュアル機能を保存することができず、GCGタスクの大幅なパフォーマンス低下につながります。
そこで我々は,ローカルオブジェクト情報の優先順位付けによってGCGモデルを高速化する,シンプルかつ効果的なフレームワークであるAdaptive Local-Aware Token Pruning (ALTP)を提案する。
ALTPでは,(1)オブジェクト中心領域におけるトークンの保持にスーパーピクセルセグメンテーションを用いるDDC,(2)情報密度に基づいて動的にトークンを割り当てる動的密度形成(DDF)という2つの重要なコンポーネントを導入している。
GranDfデータセットの大規模な実験により、ALTPはGLaMMモデルとOMG-LLaVAモデルの両方において、FastVやPraamidDropのような既存のトークンプルーニング手法を著しく上回っていることが示された。
特に、GLaMMに適用すると、ALTPは、AP50が4.9%、リコールが5.0%、視覚トークンが90%減少する。
同様に、OMG-LLaVAでは、ALTPはAPを2.1%改善し、mIOUを3.0%改善する。
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - EV-VGCNN: A Voxel Graph CNN for Event-based Object Classification [18.154951807178943]
イベントカメラは、少ない強度変化を報告し、ポータブルデバイス上での視覚知覚と理解のための低消費電力、高ダイナミックレンジ、高応答速度の顕著な利点を目立たせる。
イベントベースの学習手法は、従来の2次元学習アルゴリズムを適用するために、イベントを密度の高いフレームベースの表現に統合することで、オブジェクト認識において大きな成功を収めている。
これらのアプローチは、スパース・トゥ・ディエンス変換の期間中に多くの冗長な情報を導入し、重量と大容量のモデルを必要とするため、リアルタイムアプリケーションにおけるイベントカメラの可能性を制限する。
論文 参考訳(メタデータ) (2021-06-01T04:07:03Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - G-RCN: Optimizing the Gap between Classification and Localization Tasks
for Object Detection [3.620272428985414]
分類タスクと局所化タスクの高レベルな特徴の共有は準最適であることを示す。
我々はギャップ最適化領域ベース畳み込みネットワーク(G-RCN)というパラダイムを提案する。
新しい手法は、VGG16、ResNet50、ResNet101のバックボーンを持つFaster R-CNNに適用される。
論文 参考訳(メタデータ) (2020-11-14T04:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。