論文の概要: PixelBytes: Catching Unified Representation for Multimodal Generation
- arxiv url: http://arxiv.org/abs/2410.01820v1
- Date: Sun, 20 Oct 2024 16:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 14:54:47.265574
- Title: PixelBytes: Catching Unified Representation for Multimodal Generation
- Title(参考訳): PixelBytes:マルチモーダル生成のための統一表現
- Authors: Fabien Furfaro,
- Abstract要約: PixelBytesは、統一マルチモーダル表現学習のための新しいアプローチである。
画像変換器などの既存のシーケンスモデルにインスパイアされた本手法は,結束表現における多様な入力をキャプチャすることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report introduces PixelBytes, a novel approach for unified multimodal representation learning. Inspired by existing sequence models such as Image Transformers, PixelCNN, and Mamba-Bytes, our method aims to capture diverse inputs in a cohesive representation, exploring the integration of different data types, particularly text, audio, and pixelated images (sprites). We conducted experiments on a specialized PixelBytes Pok{\'e}mon dataset. Initially, we investigated various model architectures, including Recurrent Neural Networks (RNNs), State Space Models (SSMs), and Attention-based models, focusing on bidirectional processing and our convolutional PxBy embedding technique. Subsequently, we evaluated models based on data reduction strategies and the effectiveness of autoregressive learning. We specifically examined Long Short-Term Memory (LSTM) networks in both predictive and autoregressive modes for our main experiments. Our findings suggest that autoregressive models outperform predictive models in this context. By adopting a flexible approach to multimodal modeling, PixelBytes contributes to the ongoing development of foundation models capable of understanding and generating multimodal data. The complete PixelBytes project, including code, models, and datasets, is available online.
- Abstract(参考訳): 本報告では,一貫した多モーダル表現学習のための新しいアプローチであるPixelBytesを紹介する。
提案手法は,画像変換器,PixelCNN,Mamba-Bytesなどの既存のシーケンスモデルにヒントを得て,様々なデータタイプ,特にテキスト,音声,画素画像(小文字)の統合を探索し,凝集表現における多様な入力をキャプチャすることを目的としている。
特殊なPixelBytes Pok{\'e}monデータセットの実験を行った。
当初は、リカレントニューラルネットワーク(RNN)、ステートスペースモデル(SSM)、アテンションベースモデルなど、さまざまなモデルアーキテクチャについて検討し、双方向処理と畳み込みPxBy埋め込み技術に注目した。
次に,データ削減戦略と自己回帰学習の有効性に基づくモデルの評価を行った。
本研究の主実験では,予測モードと自己回帰モードの両方において,Long Short-Term Memory (LSTM) ネットワークについて検討した。
その結果, 自己回帰モデルは, この文脈で予測モデルより優れていたことが示唆された。
柔軟なマルチモーダルモデリングアプローチを採用することで、PixelBytesはマルチモーダルデータの理解と生成が可能な基礎モデルの開発に寄与する。
コード、モデル、データセットを含む完全なPixelBytesプロジェクトはオンラインで入手できる。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - PixelBytes: Catching Unified Embedding for Multimodal Generation [0.0]
PixelBytes Embeddingは、統一マルチモーダル表現学習のための新しいアプローチである。
Image Transformers、PixelCNN、Mamba-Bytesといった最先端のシーケンスモデルにインスパイアされたPixelBytesは、さまざまなデータ型を統合するという課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-09-03T06:02:02Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - Class Balanced PixelNet for Neurological Image Segmentation [20.56747443955369]
画素レベルの畳み込みニューラルネットワーク(CNN)を用いた自動脳腫瘍分割法(PixelNetなど)を提案する。
提案モデルは脳腫瘍と虚血性脳梗塞のセグメンテーションデータセットにおいて有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-23T10:57:54Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。