論文の概要: Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding
- arxiv url: http://arxiv.org/abs/2403.18593v2
- Date: Sun, 13 Oct 2024 03:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:21.668978
- Title: Homogeneous Tokenizer Matters: Homogeneous Visual Tokenizer for Remote Sensing Image Understanding
- Title(参考訳): 均質なトケナイザ:リモートセンシング画像理解のための均質なビジュアルトケナイザ
- Authors: Run Shao, Zhaoyang Zhang, Chao Tao, Yunsheng Zhang, Chengli Peng, Haifeng Li,
- Abstract要約: トークン化器は、大型モデルの基本的な構成要素の1つであり、長い間見過ごされてきたか、視覚的なタスクで誤解されている。
我々は、単純なホモジニアスな視覚的tOKenizer: HOOKを設計する。
均一性を達成するため、OPMは画像を4*4ピクセルのシードに分割し、注意機構を利用してSIRを知覚する。
OVMは、学習可能なベクトルの変数数をクロスアテンションクエリとして定義し、トークン量の調整を可能にする。
- 参考スコア(独自算出の注目度): 13.920198434637223
- License:
- Abstract: The tokenizer, as one of the fundamental components of large models, has long been overlooked or even misunderstood in visual tasks. One key factor of the great comprehension power of the large language model is that natural language tokenizers utilize meaningful words or subwords as the basic elements of language. In contrast, mainstream visual tokenizers, represented by patch-based methods such as Patch Embed, rely on meaningless rectangular patches as basic elements of vision, which cannot serve as effectively as words or subwords in language. Starting from the essence of the tokenizer, we defined semantically independent regions (SIRs) for vision. We designed a simple HOmogeneous visual tOKenizer: HOOK. HOOK mainly consists of two modules: the Object Perception Module (OPM) and the Object Vectorization Module (OVM). To achieve homogeneity, the OPM splits the image into 4*4 pixel seeds and then utilizes the attention mechanism to perceive SIRs. The OVM employs cross-attention to merge seeds within the same SIR. To achieve adaptability, the OVM defines a variable number of learnable vectors as cross-attention queries, allowing for the adjustment of token quantity. We conducted experiments on the NWPU-RESISC45, WHU-RS19 classification dataset, and GID5 segmentation dataset for sparse and dense tasks. The results demonstrate that the visual tokens obtained by HOOK correspond to individual objects, which demonstrates homogeneity. HOOK outperformed Patch Embed by 6\% and 10\% in the two tasks and achieved state-of-the-art performance compared to the baselines used for comparison. Compared to Patch Embed, which requires more than one hundred tokens for one image, HOOK requires only 6 and 8 tokens for sparse and dense tasks, respectively, resulting in efficiency improvements of 1.5 to 2.8 times. The code is available at https://github.com/GeoX-Lab/Hook.
- Abstract(参考訳): トークン化器は、大型モデルの基本的な構成要素の1つであり、長い間見過ごされてきたか、視覚的なタスクで誤解されている。
大きな言語モデルの大きな理解力の1つの要因は、自然言語のトークンーザが意味のある単語やサブワードを言語の基本的な要素として利用することである。
対照的に、Patch Embedのようなパッチベースの手法で表される主流のビジュアルトークンは、意味のない長方形のパッチを視覚の基本要素として頼りにしており、言語における単語やサブワードのように効果的に機能することができない。
トークン化器の本質から始めて、視覚に対して意味的に独立した領域(SIR)を定義した。
我々は、単純なホモジニアスな視覚的tOKenizer: HOOKを設計した。
HOOK は主に Object Perception Module (OPM) と Object Vectorization Module (OVM) の2つのモジュールで構成されている。
均一性を達成するため、OPMは画像を4*4ピクセルのシードに分割し、注意機構を利用してSIRを知覚する。
OVMは、同じSIR内で種をマージするためにクロスアテンションを使用する。
適応性を達成するため、OVMは学習可能なベクトルの可変数をクロスアテンションクエリとして定義し、トークン量の調整を可能にする。
我々は, NWPU-RESISC45, WHU-RS19分類データセット, GID5分割データセットについて, 疎密なタスクに対する実験を行った。
その結果,HOOKによって得られた視覚トークンは個々の物体に対応し,均一性を示すことがわかった。
HOOK は2つのタスクで Patch Embed を 6 % と 10 % で上回り、比較に使用するベースラインと比較して最先端のパフォーマンスを達成した。
1枚の画像に100枚以上のトークンを必要とするPatch Embedと比較して、HOOKはスパースタスクと密集タスクに6個と8個のトークンしか必要とせず、効率は1.5倍から2.8倍に向上した。
コードはhttps://github.com/GeoX-Lab/Hook.comから入手できる。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment [40.63340635482609]
視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。
我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。
コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
論文 参考訳(メタデータ) (2024-05-28T06:44:13Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers [9.63371509052453]
本稿では、視覚変換器(ViT)におけるパッチ・クラスタ・アテンション(PaCa)の学習を提案する。
提案したPaCaモジュールは、効率的かつ解釈可能なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。
線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
論文 参考訳(メタデータ) (2022-03-22T18:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。