論文の概要: oboro: Text-to-Image Synthesis on Limited Data using Flow-based Diffusion Transformer with MMH Attention
- arxiv url: http://arxiv.org/abs/2511.08168v1
- Date: Wed, 12 Nov 2025 01:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.67463
- Title: oboro: Text-to-Image Synthesis on Limited Data using Flow-based Diffusion Transformer with MMH Attention
- Title(参考訳): oboro:MMHを考慮したフローベース拡散変換器を用いた限定データによるテキスト・画像合成
- Authors: Ryusuke Mizutani, Kazuaki Matano, Tsugumi Kadowaki, Haruki Tenya, Layris, nuigurumi, Koki Hashimoto, Yu Tanaka,
- Abstract要約: このプロジェクトの目的は、画像生成モデルをスクラッチから開発することである。
我々は,著作権をクリアした画像のみを用いて,スクラッチから構築した新しい画像生成モデル"oboro:"を開発した。
このプロジェクトは、日本で完全に開発されたオープンソースで商用指向の画像生成AIの最初のリリースとなる。
- 参考スコア(独自算出の注目度): 0.14246966047382575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This project was conducted as a 2nd-term adopted project of the "Post-5G Information and Communication System Infrastructure Enhancement R&D Project Development of Competitive Generative AI Foundation Models (GENIAC)," a business of the Ministry of Economy, Trade and Industry (METI) and the New Energy and Industrial Technology Development Organization (NEDO). To address challenges such as labor shortages in Japan's anime production industry, this project aims to develop an image generation model from scratch. This report details the technical specifications of the developed image generation model, "oboro:." We have developed "oboro:," a new image generation model built from scratch, using only copyright-cleared images for training. A key characteristic is its architecture, designed to generate high-quality images even from limited datasets. The foundation model weights and inference code are publicly available alongside this report. This project marks the first release of an open-source, commercially-oriented image generation AI fully developed in Japan. AiHUB originated from the OSS community; by maintaining transparency in our development process, we aim to contribute to Japan's AI researcher and engineer community and promote the domestic AI development ecosystem.
- Abstract(参考訳): 本プロジェクトは, 経済産業省 (METI) と新エネルギー産業技術開発機構 (NEDO) のビジネスである「競争生成型AI基盤モデル(GENIAC)の研究開発プロジェクト」の2期目のプロジェクトとして実施された。
アニメ制作業界における労働力不足などの課題に対処するため,本研究では,ゼロから画像生成モデルを開発することを目的とする。
本報告では,現像モデル"oboro:"の技術的仕様について詳述する。
我々は,著作権をクリアした画像のみを用いて,スクラッチから構築した新しい画像生成モデル"oboro:"を開発した。
キーとなる特徴はアーキテクチャであり、限られたデータセットから高品質な画像を生成するように設計されている。
基礎モデルの重みと推論コードは、このレポートと共に公開されています。
このプロジェクトは、日本で完全に開発されたオープンソースで商用指向の画像生成AIの最初のリリースとなる。
AiHUBはOSSコミュニティを起源とし、私たちの開発プロセスにおける透明性を維持することによって、日本のAI研究者・技術者コミュニティに貢献し、国内AI開発エコシステムを促進することを目指しています。
関連論文リスト
- RefAdGen: High-Fidelity Advertising Image Generation [2.38180456064897]
RefAdGenは、分離された設計によって高い忠実性を達成する世代フレームワークである。
我々はRefAdGenが最先端のパフォーマンスを達成し、高忠実さと目立った視覚的結果を維持することで、高精細度を保ちながら、実世界と実世界の両方に挑戦し、高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度な画像化を実現していることを示す。
論文 参考訳(メタデータ) (2025-08-12T18:25:31Z) - Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Generating a Low-code Complete Workflow via Task Decomposition and RAG [0.040964539027092926]
GenAIベースのシステムは、そのスケールと汎用性のために設計が難しい。
我々は、GenAIベースのシステムの設計パターンとして、タスク分解と検索拡張生成の2つのテクニックを定式化した。
これらの2つのパターンがAI開発サイクル全体に影響を与えるため、データセットの生成、モデルトレーニング、モデル評価、デプロイメントフェーズにどのように影響したかを説明します。
論文 参考訳(メタデータ) (2024-11-29T20:13:56Z) - Exploring Gen-AI applications in building research and industry: A review [10.154329382433213]
本稿では,建築業界におけるジェネレーティブAI(Gen-AI)技術の変革の可能性について検討する。
これらの先進的なAIツールを活用することで、自動コンプライアンスチェックや設計支援の構築など、主要な領域にわたるアプリケーションについて調査する。
この論文は、建築業界におけるGen-AIの現在の能力に関する包括的分析で締めくくっている。
論文 参考訳(メタデータ) (2024-10-01T21:59:08Z) - UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation
and Diffusion Models [0.0]
本稿では,都市デザインへの包括的アプローチとして,高度な画像分割と拡散モデルの相乗効果を活用するために,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。
評価の結果,プロトタイプアプリケーションによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。
予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
論文 参考訳(メタデータ) (2024-01-25T18:30:46Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration [48.54002313329872]
本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
論文 参考訳(メタデータ) (2023-05-22T07:53:36Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。