論文の概要: BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft
- arxiv url: http://arxiv.org/abs/2603.03964v2
- Date: Thu, 12 Mar 2026 03:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.406171
- Title: BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft
- Title(参考訳): BLOCK:Minecraft用のオープンソースの2段階MLLMキャラクタ・トゥ・スキキンパイプライン
- Authors: Hengquan Guo,
- Abstract要約: オープンソースの双方向キャラクタ・トゥ・スキンのパイプラインである textbfBLOCK について述べる。
任意の文字概念から、ピクセル完全Minecraftスキンを生成する。
- 参考スコア(独自算出の注目度): 4.061135251278187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present \textbf{BLOCK}, an open-source bi-stage character-to-skin pipeline that generates pixel-perfect Minecraft skins from arbitrary character concepts. BLOCK decomposes the problem into (i) a \textbf{3D preview synthesis stage} driven by a large multimodal model (MLLM) with a carefully designed prompt-and-reference template, producing a consistent dual-panel (front/back) oblique-view Minecraft-style preview; and (ii) a \textbf{skin decoding stage} based on a fine-tuned FLUX.2 model that translates the preview into a skin atlas image. We further propose \textbf{EvolveLoRA}, a progressive LoRA curriculum (text-to-image $\rightarrow$ image-to-image $\rightarrow$ preview-to-skin) that initializes each phase from the previous adapter to improve stability and efficiency. BLOCK is released with all prompt templates and fine-tuned weights to support reproducible character-to-skin generation.
- Abstract(参考訳): 我々は、任意の文字概念からピクセル完全Minecraftスキンを生成するオープンソースの双方向文字スキンパイプラインである「textbf{BLOCK}」を提示する。
BLOCKは問題を分解する
(i)大規模なマルチモーダルモデル(MLLM)を念入りに設計したプロンプト・アンド・レファレンステンプレートで駆動する「textbf{3Dプレビュー合成ステージ」で、一貫したデュアルパネル(フロント/バック)斜めマインクラフトスタイルのプレビューを生成する。
(ii) プレビューをスキンアトラス画像に変換する細調整FLUX.2モデルに基づく \textbf{skin decoding stage} 。
さらに、前回のアダプタから各フェーズを初期化するプログレッシブLoRAカリキュラム(text-to-image $\rightarrow$ image-to-image $\rightarrow$ Preview-to-skin)を提案する。
BLOCKは、再現可能なキャラクタ・ツー・スキン生成をサポートするために、すべてのプロンプトテンプレートと微調整されたウェイトと共にリリースされた。
関連論文リスト
- Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions [33.440447854396446]
我々は、長文の字幕上で、最初のオープンソーステキスト・ツー・イメージモデルを訓練する。
長いキャプションを効率的に処理するために,DimFusionを提案する。
また,テキスト・アズ・ア・ブートネック・コンストラクション(TaBR)の評価プロトコルについても紹介する。
論文 参考訳(メタデータ) (2025-11-10T09:25:25Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - T$^3$-S2S: Training-free Triplet Tuning for Sketch to Scene Generation [56.054622766743414]
本研究では,Sketch-to-Scene (T3-S2S) 生成のためのトレーニング不要トリプルトチューニングを提案する。
プロンプトバランスモジュールによるキーワード表現を強化し、クリティカルなインスタンスが欠落するリスクを低減する。
実験により,既存のスケッチ・ツー・イメージモデルの性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-12-18T04:01:32Z) - Chameleon: Mixed-Modal Early-Fusion Foundation Models [0.0]
任意の任意の順序で画像やテキストを理解・生成できる早期融合トークンベースの混合モードモデル群を提示する。
モデルは、視覚的質問応答、画像キャプション、テキスト生成、画像生成、長期混合モーダル生成など、包括的なタスクに基づいて評価される。
論文 参考訳(メタデータ) (2024-05-16T05:23:41Z) - Compositional Text-to-Image Generation with Dense Blob Representations [48.1976291999674]
既存のテキスト画像モデルは、複雑なテキストプロンプトに従うのに苦労する。
我々は,BlobGENと呼ばれるBlob-grounded text-to-image diffusion modelを合成生成のために開発する。
実験の結果,BlobGENは,MS-COCOにおけるゼロショット生成品質とレイアウト誘導制御性を向上することがわかった。
論文 参考訳(メタデータ) (2024-05-14T00:22:06Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。