論文の概要: Bottleneck Tokens for Unified Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2604.11095v1
- Date: Mon, 13 Apr 2026 07:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.387897
- Title: Bottleneck Tokens for Unified Multimodal Retrieval
- Title(参考訳): 統合マルチモーダル検索のためのボトルネックトークン
- Authors: Siyu Sun, Jing Ren, Zhaohe Liao, Dongxiao Mao, Xiangyuan Ren, Yiyi Zhang, Haohua Zhao, Weixiong Lin, Jiang Shaohua, Liqing Zhang, Yuchao Zheng,
- Abstract要約: マルチモーダル検索のためのデコーダのみのマルチモーダル大言語モデル(MLLM)の適用には、2つの構造的ギャップがある。
まず、既存のメソッドは暗黙のプーリングに依存しており、シーケンスレベルの表現として標準語彙トークンの隠れた状態をオーバーロードする。
第二に、コントラスト的な微調整は、埋め込みが一致すべきものを特定するが、どのように情報を圧縮すべきかについてのトークンレベルのガイダンスは提供しない。
本稿では,Bottleneck Tokens(BToks)を紹介した。これは,固定容量明示的なプール機構として機能する,学習可能なトークンの小さなセットである。
- 参考スコア(独自算出の注目度): 16.707536543758344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting decoder-only multimodal large language models (MLLMs) for unified multimodal retrieval faces two structural gaps. First, existing methods rely on implicit pooling, which overloads the hidden state of a standard vocabulary token (e.g., <EOS>) as the sequence-level representation, a mechanism never designed for information aggregation. Second, contrastive fine-tuning specifies what the embedding should match but provides no token-level guidance on how information should be compressed into it. We address both gaps with two complementary components. Architecturally, we introduce Bottleneck Tokens (BToks), a small set of learnable tokens that serve as a fixed-capacity explicit pooling mechanism. For training, we propose Generative Information Condensation: a next-token prediction objective coupled with a Condensation Mask that severs the direct attention path from target tokens to query tokens. All predictive signals are thereby forced through the BToks, converting the generative loss into dense, token-level supervision for semantic compression. At inference time, only the input and BToks are processed in a single forward pass with negligible overhead over conventional last-token pooling. On MMEB-V2 (78 datasets, 3 modalities, 9 meta-tasks), our approach achieves state-of-the-art among 2B-scale methods under comparable data conditions, attaining an Overall score of 59.0 (+3.6 over VLM2Vec-V2) with substantial gains on semantically demanding tasks (e.g., +12.6 on Video-QA).
- Abstract(参考訳): マルチモーダル検索のためのデコーダのみのマルチモーダル大言語モデル(MLLM)の適用には、2つの構造的ギャップがある。
まず、既存のメソッドは暗黙のプーリングに依存し、標準的な語彙トークン(例えば、<EOS>)の隠された状態をシーケンスレベルの表現としてオーバーロードします。
第二に、コントラスト的な微調整は、埋め込みが一致すべきものを特定するが、どのように情報を圧縮すべきかについてのトークンレベルのガイダンスは提供しない。
2つの相補的なコンポーネントで、両方のギャップに対処する。
アーキテクチャ的にはBottleneck Tokens(BToks)を紹介します。これは、固定容量明示的なプール機構として機能する、学習可能なトークンの小さなセットです。
トレーニングのために,ターゲットトークンからクエリトークンへの直接的注意経路を分離するコンデンサマスクと組み合わせた,次世代の予測目標であるジェネレーティブ・インフォメーション・コンデンサを提案する。
これにより、すべての予測信号がBToksを通して強制され、生成損失を意味的圧縮のための密度の高いトークンレベルの監視に変換する。
推論時には、入力とBTokだけが単一のフォワードパスで処理され、従来のラストトケンプーリングのオーバーヘッドは無視できる。
MMEB-V2(78データセット、3モーダル、9メタタスク)では、比較データ条件下での2Bスケール手法の最先端化を実現し、59.0(+3.6 over VLM2Vec-V2)の総合スコアを達成し、セマンティックな要求タスク(ビデオQAでは+12.6)に大きく貢献した。
関連論文リスト
- SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - AWTE-BERT:Attending to Wordpiece Tokenization Explicitly on BERT for
Joint Intent Classification and SlotFilling [5.684659127683238]
BERT (Bidirectional Representations from Transformers) は2つのタスクを共同で最適化する。
本稿では,ワードピーストークン化後の複数のサブトークン特徴を明示的にモデル化したBERTに基づく新しいジョイントモデルを提案する。
実験により,本モデルが意図分類精度,スロットフィリングF1,文レベルの意味的フレーム精度を大幅に向上することを確認した。
論文 参考訳(メタデータ) (2022-11-27T13:49:19Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。