論文の概要: PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2605.30126v1
- Date: Thu, 28 May 2026 15:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.458629
- Title: PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding
- Title(参考訳): PARCEL: 効率的な視覚言語理解のための条件付きElastic Queriesを用いたプールアンカレッドリサンプリング
- Authors: Selim Kuzucu, Alessio Tonioni, Vasile Lup, Bernt Schiele, Federico Tombari, Muhammad Ferjad Naeem,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚的な入力を高密度なトークンシーケンスにマッピングし、推論に二次的な計算ボトルネックを与える。
特徴抽出の労力を動的に分配する視覚トークン化アーキテクチャであるPARCELを紹介する。
PARCELは、既存のマトリシカベースラインを「一度にトレーニングし、どこにでもデプロイする」パラダイムを保ちながら、視覚障害者の予算で一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 88.17174909130188
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Vision-Language Models (LVLMs) map visual inputs into dense token sequences, imposing a quadratic computational bottleneck for inference. Elastic visual-token compression addresses this by training a single model that can run at multiple visual-token budgets. However, existing approaches struggle under aggressive compression. Spatial-only compression, as in nested pooling, behaves as an imperfect low-pass filter and induces spectral aliasing that obscures fine-grained detail. Query-only compression, as in nested query resampling, replaces explicit grid-aligned tokens with non-local summaries and substantially degrades spatial grounding. To resolve this representational conflict, we introduce PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding), a visual tokenization architecture that dynamically partitions the labor of feature extraction. PARCEL establishes spatial pool tokens as low-frequency layout anchors and conditions elastic query tokens on these anchors through Pool-Conditioned Query Resampling. This encourages query tokens to focus on complementary visual features rather than redundant spatial mapping. Extensive evaluations across 27 benchmarks show that PARCEL improves the performance-efficiency Pareto frontier, consistently outperforming existing matryoshka baselines across visual-token budgets while preserving the "train once, deploy anywhere" paradigm.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚的な入力を高密度なトークンシーケンスにマッピングし、推論に二次的な計算ボトルネックを与える。
弾力的な視覚的な圧縮は、複数の視覚的な予算で実行可能な単一のモデルをトレーニングすることで、この問題に対処する。
しかし、既存の手法は積極的な圧縮に苦慮している。
ネストしたプールのような空間のみの圧縮は、不完全な低パスフィルタとして振る舞い、きめ細かい詳細を隠蔽するスペクトルエイリアスを誘導する。
ネストしたクエリ再サンプリングのように、クエリのみの圧縮は、明示的なグリッド整列トークンを非局所的なサマリーに置き換え、空間的なグラウンド化を大幅に低下させる。
この表現的対立を解決するために,特徴抽出の労力を動的に分配する視覚トークン化アーキテクチャであるPARCEL(Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding)を導入する。
PARCELは、空間プールトークンを低周波レイアウトアンカーとして確立し、Pool-Conditioned Query Resamplingを通じてこれらのアンカーに弾性的なクエリトークンを配置する。
これにより、クエリトークンは冗長な空間マッピングではなく、補完的な視覚的特徴に焦点を合わせることができる。
27ベンチマークにわたる大規模な評価によると、PARCELはパフォーマンス効率のParetoフロンティアを改善し、既存のマトリシカベースラインを一貫して上回り、"一度にトレーニングし、どこにでもデプロイする"パラダイムを保っている。
関連論文リスト
- Faster or Stronger: Towards Flexible Visual Place Recognition via Weighted Aggregation and Token Pruning [27.4981354426677]
ビジュアルプレース認識(VPR)は、大規模データベース内の同じ場所の参照画像とクエリイメージをマッチングすることを目的としている。
自己蒸留による特徴抽出コストを削減するVPR指向のトークンプルーニングフレームワークであるWeiToPを紹介する。
WeiToPは、推論時にプラグアンドプレイトークンのプルーニングを可能にし、追加のトレーニングなしで正確性と効率のトレードオフを柔軟かつオンデマンドに制御できる。
論文 参考訳(メタデータ) (2026-05-19T23:01:57Z) - Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文 参考訳(メタデータ) (2026-05-10T09:07:04Z) - RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models [59.94664910790462]
ResPruneは、大規模な視覚言語モデルのためのトレーニング不要のビジュアルトークンプルーニングフレームワークである。
視覚トークンのコンパクトだが情報に富むサブセットを選択する。
これは、計算、メモリ消費、推論遅延を効果的に削減する。
論文 参考訳(メタデータ) (2026-03-22T07:44:45Z) - CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation [54.53371540755023]
推論セグメンテーションは、複雑でしばしば暗黙的な指示によって参照されるターゲットに対して、ピクセル精度の高いマスクを求める。
我々は、限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。
CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesにラベル付きイメージを100個まで必要としています。
論文 参考訳(メタデータ) (2025-11-21T20:14:55Z) - Positional Preservation Embedding for Multimodal Large Language Models [20.307929204794917]
マルチモーダル言語モデル(LMLM)は視覚言語タスクにおいて高い性能を達成しているが、冗長な視覚トークンによってしばしば非効率に悩まされている。
本研究では,トークン圧縮時の空間保存構造を新規に符号化する手法を提案する。
PPEは、プログレッシブトークン圧縮戦略であるクラスタリングを効果的にサポートし、パフォーマンスの維持を向上できることを示す。
論文 参考訳(メタデータ) (2025-10-27T02:40:02Z) - Harnessing Group-Oriented Consistency Constraints for Semi-Supervised Semantic Segmentation in CdZnTe Semiconductors [71.44213719783703]
ICAF(Intra-group Consistency Augmentation Framework)は、CdZnTe(Cadmium Zinc Telluride)半導体画像にラベルを付けるために開発された。
ICAF は View Augmentation Module (VAM) と View Correction Module (VCM) の2つの重要なモジュールで構成されている。
ICAFは、CdZnTeデータセット上の70.6% mIoUを2つのグループアノテートデータのみを用いて達成する。
論文 参考訳(メタデータ) (2025-08-18T09:40:36Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。