論文の概要: ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation
- arxiv url: http://arxiv.org/abs/2505.16495v1
- Date: Thu, 22 May 2025 10:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.225673
- Title: ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation
- Title(参考訳): ALTo: 自己回帰型マスク生成のための適応長トケナイザ
- Authors: Lingfeng Wang, Hualing Lin, Senda Chen, Tao Wang, Changxu Cheng, Yangyang Zhong, Dong Zheng, Wuyue Zhao,
- Abstract要約: 自己回帰マスク生成のための適応長トークンであるALToを提案する。
新規なトークン長予測器を、長さ正規化項と微分可能なトークンチャンキング戦略とともに設計する。
ALToLLMは適応トークンコストで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.618610740026886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While humans effortlessly draw visual objects and shapes by adaptively allocating attention based on their complexity, existing multimodal large language models (MLLMs) remain constrained by rigid token representations. Bridging this gap, we propose ALTo, an adaptive length tokenizer for autoregressive mask generation. To achieve this, a novel token length predictor is designed, along with a length regularization term and a differentiable token chunking strategy. We further build ALToLLM that seamlessly integrates ALTo into MLLM. Preferences on the trade-offs between mask quality and efficiency is implemented by group relative policy optimization (GRPO). Experiments demonstrate that ALToLLM achieves state-of-the-art performance with adaptive token cost on popular segmentation benchmarks. Code and models are released at https://github.com/yayafengzi/ALToLLM.
- Abstract(参考訳): 人間はその複雑さに基づいて注意を適応的にアロケートすることで視覚オブジェクトや形状を熱心に描画するが、既存のマルチモーダルな大規模言語モデル(MLLM)は厳密なトークン表現によって制約されるままである。
このギャップを埋めて自己回帰マスク生成のための適応長トークンであるALToを提案する。
これを実現するために、新しいトークン長予測器を、長さ正規化項と微分可能なトークンチャンキング戦略と共に設計する。
さらに、ALToをMLLMにシームレスに統合するALToLLMを構築します。
マスクの品質と効率のトレードオフは,グループ相対政策最適化(GRPO)によって評価される。
ALToLLMは、一般的なセグメンテーションベンチマークにおいて、適応トークンコストで最先端のパフォーマンスを達成することを示した。
コードとモデルはhttps://github.com/yayafengzi/ALToLLM.comで公開されている。
関連論文リスト
- TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation [80.90309237362526]
TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-05-08T17:12:19Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。