論文の概要: Object Recognition as Next Token Prediction
- arxiv url: http://arxiv.org/abs/2312.02142v3
- Date: Tue, 12 Mar 2024 14:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:17:02.609258
- Title: Object Recognition as Next Token Prediction
- Title(参考訳): 次のトークン予測としてのオブジェクト認識
- Authors: Kaiyu Yue, Bor-Chun Chen, Jonas Geiping, Hengduo Li, Tom Goldstein,
Ser-Nam Lim
- Abstract要約: オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
- 参考スコア(独自算出の注目度): 105.334222837841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to pose object recognition as next token prediction.
The idea is to apply a language decoder that auto-regressively predicts the
text tokens from image embeddings to form labels. To ground this prediction
process in auto-regression, we customize a non-causal attention mask for the
decoder, incorporating two key features: modeling tokens from different labels
to be independent, and treating image tokens as a prefix. This masking
mechanism inspires an efficient method - one-shot sampling - to simultaneously
sample tokens of multiple labels in parallel and rank generated labels by their
probabilities during inference. To further enhance the efficiency, we propose a
simple strategy to construct a compact decoder by simply discarding the
intermediate blocks of a pretrained language model. This approach yields a
decoder that matches the full model's performance while being notably more
efficient. The code is available at https://github.com/kaiyuyue/nxtp
- Abstract(参考訳): 本稿では,次のトークン予測として物体認識を行う手法を提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
この予測処理を自動回帰で行うために,デコーダの非因果注意マスクをカスタマイズし,異なるラベルから独立したトークンをモデリングし,画像トークンをプレフィックスとして扱うという2つの重要な特徴を取り入れた。
このマスキング機構は、推論中に複数のラベルのトークンを並列にサンプリングし、その確率によって生成されたラベルをランク付けする効率的な方法であるワンショットサンプリングを誘導する。
さらに効率を高めるために,事前学習した言語モデルの中間ブロックを単に破棄して,コンパクトデコーダを構築するための簡易な方法を提案する。
このアプローチでは、デコーダが完全なモデルのパフォーマンスにマッチし、より効率的である。
コードはhttps://github.com/kaiyuyue/nxtpで入手できる。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment [40.63340635482609]
視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。
我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。
コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
論文 参考訳(メタデータ) (2024-05-28T06:44:13Z) - TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。
TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。
このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。