論文の概要: Unified Pix Token And Word Token Generative Language Model
- arxiv url: http://arxiv.org/abs/2605.14028v1
- Date: Wed, 13 May 2026 18:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.460819
- Title: Unified Pix Token And Word Token Generative Language Model
- Title(参考訳): Unified Pix TokenとWord Token生成言語モデル
- Authors: Haun Leung, ZiNan Wang,
- Abstract要約: 生成言語モデルにピクセルトークンとワードトークンを統一する新しいモデルを提案する。
新たなモデルでは、各ピクセルに独自のトークン埋め込み、カラー折り畳み、グローバルなコンディショナルアテンション近似、教師なし事前トレーニングを備えている。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the emergence of Vision Transformer (ViT), it has been widely used in generative language model and generative visual model. Especially in the current state-of-art open source multimodal models, ViT obtained by CLIP or SigLIP method serves as the vision encoder backbone to help them acquire visual understanding capabilities. But this method leads to limitations in visual understanding for details, such as difficulty in recognizing small text or numbers in images. To address these issues, we propose a new model to unify pix token and word token into the generative language model. The new model also features with each pix of image having its own token embedding, color folding, global conditional attention approximation and image unsupervised pretraining. We conducted image unsupervised pretraining experiments using our new model to explore its potential. The experimental results show that it has good performance even in small model and with limited training data. We believe our model also conforms to the scaling law, as long as model parameters and training data increased, its performance will continue to improve.
- Abstract(参考訳): Vision Transformer (ViT) の登場以来、生成言語モデルや生成視覚モデルに広く用いられている。
特に現在の最先端のオープンソースマルチモーダルモデルでは、CLIPやSigLIPメソッドによって得られたViTがビジョンエンコーダのバックボーンとして機能し、視覚的理解能力の獲得を支援する。
しかし、この手法は、小さなテキストや画像中の数字を認識することの難しさなど、細部に対する視覚的理解の制限につながる。
これらの問題に対処するために,画素トークンとワードトークンを生成言語モデルに統合する新しいモデルを提案する。
新たなモデルでは、各ピクセルに独自のトークン埋め込み、カラー折り畳み、グローバルな条件付きアテンション近似、教師なし事前トレーニングを備えている。
我々は新しいモデルを用いて画像教師なし事前学習実験を行い、その可能性を探究した。
実験結果から,小型モデルでも,限られた訓練データでも良好な性能を示した。
モデルパラメータとトレーニングデータが増加する限り、そのパフォーマンスは改善され続けます。
関連論文リスト
- Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。
視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。
また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文 参考訳(メタデータ) (2025-03-25T09:59:46Z) - Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - Elucidating the design space of language models for image generation [13.96798987912677]
画像トークンはテキストトークンと比較してランダム性が高いことを示す。
また, 画像生成における局所的情報の重要性を, 全てのモデルで把握できたが, より小さなモデルでは, グローバルな文脈を捉えるのに苦労していることがわかった。
我々の研究は、視覚生成における言語モデルの最適化挙動を初めて分析し、他の領域にLMを適用する際に、より効果的な設計を刺激できると考えている。
論文 参考訳(メタデータ) (2024-10-21T17:57:04Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。