Fugu-MT 論文翻訳(概要): SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

論文の概要: SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

arxiv url: http://arxiv.org/abs/2602.18903v1
Date: Sat, 21 Feb 2026 16:51:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.384935
Title: SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model
Title（参考訳）: SCHEMA for Gemini 3 Pro Image: Googleのネイティブマルチモーダルモデルを用いた制御AI画像生成のための構造化手法
Authors: Luca Cazzaniga,
Abstract要約: SCHEMAは、850の検証済みAPI予測を含む、システマティックなプロフェッショナルプラクティスに基づいて構築された、エンジニアリングされたフレームワークである。 SchEMAは、探索的(約5%)から指示的(約95%)まで実践者のコントロールを拡大する主要な発見は、621個の構造化プロンプトにまたがる91%の強制コンプライアンス率と94%の禁制コンプライアンス率である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents SCHEMA (Structured Components for Harmonized Engineered Modular Architecture), a structured prompt engineering methodology specifically developed for Google Gemini 3 Pro Image. Unlike generic prompt guidelines or model-agnostic tips, SCHEMA is an engineered framework built on systematic professional practice encompassing 850 verified API predictions within an estimated corpus of approximately 4,800 generated images, spanning six professional domains: real estate photography, commercial product photography, editorial content, storyboards, commercial campaigns, and information design. The methodology introduces a three-tier progressive system (BASE, MEDIO, AVANZATO) that scales practitioner control from exploratory (approximately 5%) to directive (approximately 95%), a modular label architecture with 7 core and 5 optional structured components, a decision tree with explicit routing rules to alternative tools, and systematically documented model limitations with corresponding workarounds. Key findings include an observed 91% Mandatory compliance rate and 94% Prohibitions compliance rate across 621 structured prompts, a comparative batch consistency test demonstrating substantially higher inter-generation coherence for structured prompts, independent practitioner validation (n=40), and a dedicated Information Design validation demonstrating >95% first-generation compliance for spatial and typographical control across approximately 300 publicly verifiable infographics. Previously published on Zenodo (doi:10.5281/zenodo.18721380).
Abstract（参考訳）: 本稿では,Google Gemini 3 Pro Image向けに開発された構造化プロンプトエンジニアリング手法であるSCHEMA(Structured Components for Harmonized Engineered Modular Architecture)について述べる。一般的なプロンプトガイドラインやモデルに依存しないヒントとは異なり、SCHEMAは、850の検証済みAPI予測をおよそ4,800の生成された画像で推定したコーパス内に含む、システマティックなプロのプラクティスに基づいて構築されたフレームワークである。この方法論では、3層プログレッシブシステム(BASE, MEDIO, AVANZATO)を導入し、探索的(約5%)からディレクティブ(約95%)まで実践者のコントロールをスケールし、7コアと5つのオプション構成されたコンポーネントを備えたモジュールラベルアーキテクチャ、代替ツールへの明確なルーティングルールを備えた決定ツリー、および対応する回避策によるモデル制限を体系的に文書化する。主な発見は、621個の構造化プロンプトにまたがる91%の強制コンプライアンス率と94%の禁制コンプライアンス率、構造化プロンプトの世代間コヒーレンスを著しく向上させる比較バッチ一貫性試験、独立した実践者検証(n=40)、および約300個の公判インフォグラフィックにまたがる空間的およびタイポグラフィー制御に対する95%の第一世代コンプライアンスを実証する専用情報デザイン検証である。以前は禅道(道位10.5281/禅道18721380)に掲載されていた。

関連論文リスト

Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale [0.0]
大規模言語モデルエージェントは、プログラムインターフェイスを介してシステムを操作するようになっている。しかし、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。 11のモデル、4のフォーマット、スキーマ10から10,000のテーブルにわたる9,649の実験を調査した。
論文参考訳（メタデータ） (2026-02-05T08:39:05Z)
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
ProImage-Bench: Rubric-Based Evaluation for Professional Image Generation [151.75112778479468]
本研究では,技術記述から科学的に正確な図形を合成する必要がある専門的な画像生成について検討する。実際の教科書やテクニカルレポートから収集した654個の図形に対して,詳細な画像指示と,精度を6,076の基準と44,131のバイナリチェックに分解するルーリックの階層を構築した。 ProImage-Bench上でいくつかの代表的なテキスト・ツー・イメージモデルをベンチマークし、オープンドメイン性能が強いにもかかわらず、最良のベースモデルは0.791の精度と0.553の基準スコアにしか達しないことを示した。
論文参考訳（メタデータ） (2025-12-13T07:13:43Z)
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing [40.13961086100904]
Pico-Banana-400Kは、命令ベースの画像編集のための総合的な400Kイメージデータセットである。我々のデータセットは、Nano-Bananaを利用して、実際の写真から多様な編集ペアを生成する。この大規模で高品質でタスク豊富なリソースを提供することで、Pico-Banana-400Kは次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅牢な基盤を確立する。
論文参考訳（メタデータ） (2025-10-22T17:43:15Z)
Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。 FLUX.1 KontextとVLMを統合する統一モデルを訓練する。 3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文参考訳（メタデータ） (2025-10-06T17:56:55Z)
PRISM: Phase-enhanced Radial-based Image Signature Mapping framework for fingerprinting AI-generated images [2.119461028150219]
我々は,AI生成画像のフィンガープリントのためのスケーラブルなフレームワークであるPRISMを紹介する。 PRISM-36Kは、6つのテキスト・ツー・イメージのGANモデルと拡散モデルによって生成される36,000の画像からなる新しいデータセットである。 PRISMは、このデータセットに対して92.04%の属性精度を達成する。
論文参考訳（メタデータ） (2025-09-18T10:57:26Z)
OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
IC-Custom: Diverse Image Customization via In-Context Learning [93.65917928168558]
IC-Customは、位置認識と位置自由な画像カスタマイズをシームレスに統合する統合フレームワークである。 In-context Multi-Modal Attention (ICMA) 機構を提案する。 IC-Customは、試行錯誤、画像挿入、クリエイティブIPカスタマイズなど、さまざまな産業アプリケーションをサポートしている。
論文参考訳（メタデータ） (2025-07-02T17:36:38Z)
Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文参考訳（メタデータ） (2025-04-15T17:59:43Z)
SAGI: Semantically Aligned and Uncertainty Guided AI Image Inpainting [11.216906046169683]
SAGI-DはAIが生成する塗り絵の最大かつ最も多様なデータセットである。実験の結果,セマンティックアライメントは画像の品質と美学を著しく改善することがわかった。 SAGI-Dを使っていくつかの画像法医学的アプローチを訓練すると、ドメイン内の検出性能は平均37.4%向上する。
論文参考訳（メタデータ） (2025-02-10T15:56:28Z)
ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文参考訳（メタデータ） (2024-12-09T21:44:02Z)
Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文参考訳（メタデータ） (2024-05-03T15:02:41Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。