論文の概要: Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction
- arxiv url: http://arxiv.org/abs/2501.00880v1
- Date: Wed, 01 Jan 2025 15:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:22.482661
- Title: Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction
- Title(参考訳): クラスタ指向のトークン予測による自己回帰視覚生成の改善
- Authors: Teng Hu, Jiangning Zhang, Ran Yi, Jieyu Weng, Yabiao Wang, Xianfang Zeng, Zhucun Xue, Lizhuang Ma,
- Abstract要約: IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
- 参考スコア(独自算出の注目度): 52.09472099976885
- License:
- Abstract: Employing LLMs for visual generation has recently become a research focus. However, the existing methods primarily transfer the LLM architecture to visual generation but rarely investigate the fundamental differences between language and vision. This oversight may lead to suboptimal utilization of visual generation capabilities within the LLM framework. In this paper, we explore the characteristics of visual embedding space under the LLM framework and discover that the correlation between visual embeddings can help achieve more stable and robust generation results. We present IAR, an Improved AutoRegressive Visual Generation Method that enhances the training efficiency and generation quality of LLM-based visual generation models. Firstly, we propose a Codebook Rearrangement strategy that uses balanced k-means clustering algorithm to rearrange the visual codebook into clusters, ensuring high similarity among visual features within each cluster. Leveraging the rearranged codebook, we propose a Cluster-oriented Cross-entropy Loss that guides the model to correctly predict the cluster where the token is located. This approach ensures that even if the model predicts the wrong token index, there is a high probability the predicted token is located in the correct cluster, which significantly enhances the generation quality and robustness. Extensive experiments demonstrate that our method consistently enhances the model training efficiency and performance from 100M to 1.4B, reducing the training time by half while achieving the same FID. Additionally, our approach can be applied to various LLM-based visual generation models and adheres to the scaling law, providing a promising direction for future research in LLM-based visual generation.
- Abstract(参考訳): LLMをビジュアルジェネレーションに利用することは近年研究の焦点となっている。
しかし、既存の手法は主にLLMアーキテクチャを視覚生成に転送するが、言語と視覚の根本的な違いを調査することは滅多にない。
この監視は、LLMフレームワーク内の視覚生成能力を最適以下に活用する可能性がある。
本稿では,LLMフレームワークにおける視覚埋め込み空間の特性を考察し,視覚埋め込み間の相関がより安定かつ堅牢な生成結果の獲得に有効であることを示す。
我々は,LLMに基づく視覚生成モデルのトレーニング効率と生成品質を向上させる改良された自己回帰視覚生成法であるIARを提案する。
まず、バランスの取れたk平均クラスタリングアルゴリズムを用いて、視覚的なコードブックをクラスタに並べ替え、各クラスタ内の視覚的特徴間の高い類似性を保証するCodebook Rearrangement戦略を提案する。
本稿では,クラスタ指向のクロスエントロピーロス(Cross-oriented Cross-Entropy Loss)を提案する。
このアプローチは、モデルが間違ったトークンインデックスを予測しても、予測トークンが正しいクラスタにある確率が高く、生成品質とロバスト性を大幅に向上させる。
実験の結果,本手法はモデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上し,FIDを達成しながらトレーニング時間を半減することを示した。
さらに,本手法は様々なLCMベースの視覚生成モデルに適用可能であり,スケーリング法則に従属し,将来的なLCMベースの視覚生成研究の方向性を示す。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Image Clustering Algorithm Based on Self-Supervised Pretrained Models and Latent Feature Distribution Optimization [4.39139858370436]
本稿では,自己教師付き事前学習モデルと潜在特徴分布最適化に基づく画像クラスタリングアルゴリズムを提案する。
我々の手法は最新のクラスタリングアルゴリズムより優れ、最先端のクラスタリング結果が得られる。
論文 参考訳(メタデータ) (2024-08-04T04:08:21Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Dynamic Clustering and Cluster Contrastive Learning for Unsupervised
Person Re-identification [29.167783500369442]
教師なしRe-ID手法は、ラベルのないデータから堅牢で差別的な特徴を学習することを目的としている。
本稿では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。
提案したDCCCの有効性を検証するために, 広く利用されている複数の公開データセットの実験を行った。
論文 参考訳(メタデータ) (2023-03-13T01:56:53Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - Consensus Clustering With Unsupervised Representation Learning [4.164845768197489]
我々はBootstrap Your Own Latent(BYOL)のクラスタリング能力について検討し、BYOLを使って学習した機能がクラスタリングに最適でないことを観察する。
本稿では,新たなコンセンサスクラスタリングに基づく損失関数を提案するとともに,クラスタリング能力を改善し,類似のクラスタリングに基づく手法より優れたBYOLをエンド・ツー・エンドで学習する。
論文 参考訳(メタデータ) (2020-10-03T01:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。