論文の概要: SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
- arxiv url: http://arxiv.org/abs/2605.08043v1
- Date: Fri, 08 May 2026 17:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.243352
- Title: SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation
- Title(参考訳): SCOPE:複雑な画像生成のための構造化分解と条件付きスキルオーケストレーション
- Authors: Tianfei Ren, Zhipeng Yan, Yiming Zhao, Zhen Fang, Yu Zeng, Guohui Zhang, Hang Xu, Xiaoxiao Ma, Shiting Huang, Ke Xu, Wenxuan Huang, Lionel Z. Wang, Lin Chen, Zehui Chen, Jie Huang, Feng Zhao,
- Abstract要約: SCOPEは、進化する構造化仕様におけるセマンティックコミットメントを維持する、仕様ガイダンスのスキルオーケストレーションフレームワークである。
我々はEntity-Gated Intent Pass Rate (EGIP)とともに、エンティティと制約レベルの仕様を持つ人間アノテーションベンチマークであるGen-Arenaを紹介する。
SCOPE は Gen-Arena のベースラインをほぼ上回り 0.60 EGIP を達成し、WISE-V (0.907) と MindBench (0.61) の強力な結果を得た。
- 参考スコア(独自算出の注目度): 43.45173492815374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-to-image models have made strong progress in visual fidelity, faithfully realizing complex visual intents remains challenging because many requirements must be tracked across grounding, generation, and verification. We refer to these requirements as semantic commitments and formalize their lifecycle discontinuity as the Conceptual Rift, where commitments may be locally resolved or checked but fail to remain identifiable as the same operational units throughout the generation lifecycle. To address this, we propose SCOPE, a specification-guided skill orchestration framework that maintains semantic commitments in an evolving structured specification and conditionally invokes retrieval, reasoning, and repair skills around unresolved or violated commitments. To evaluate commitment-level intent realization, we introduce Gen-Arena, a human-annotated benchmark with entity- and constraint-level specifications, together with Entity-Gated Intent Pass Rate (EGIP), a strict entity-first pass criterion. SCOPE substantially outperforms all evaluated baselines on Gen-Arena, achieving 0.60 EGIP, and further achieves strong results on WISE-V (0.907) and MindBench (0.61), demonstrating the effectiveness of persistent commitment tracking for complex image generation.
- Abstract(参考訳): テキスト・ツー・イメージのモデルは視覚的忠実さを強く進歩させてきたが、多くの要件をグラウンド、生成、検証にわたって追跡しなければならないため、複雑な視覚的意図を忠実に実現することは依然として困難である。
これらの要件を意味的なコミットメントとして言及し、それらのライフサイクルの不連続性をConceptual Riftとして形式化する。
これを解決するために、SCOPEは、進化する構造化仕様における意味的なコミットメントを維持し、未解決または侵害されたコミットメントに関する検索、推論、修復のスキルを条件付きで呼び出す仕様誘導型スキルオーケストレーションフレームワークである。
コミットメントレベルの意図実現を評価するため、厳密なエンティティファーストパス基準であるEntity-Gated Intent Pass Rate (EGIP)とともに、エンティティレベルと制約レベル仕様を備えた人間アノテーションベンチマークであるGen-Arenaを導入する。
SCOPE は Gen-Arena のベースラインをほぼ上回り 0.60 EGIP を達成し、WISE-V (0.907) と MindBench (0.61) の強力な結果を得た。
関連論文リスト
- Refining Context-Entangled Content Segmentation via Curriculum Selection and Anti-Curriculum Promotion [14.803333807611414]
CurriSegは2段階学習フレームワークで、カリキュラムと反カリキュラム原則を統合して表現信頼性を向上させる。
カリキュラム選択フェーズでは,サンプル損失の時間統計に基づいて,CurriSegが動的にトレーニングデータを選択する。
本稿では, 高周波成分を抑圧し, 低周波構造および文脈条件への依存を強制するスペクトラル・ブラインドネス・ファイン・チューニングを設計する。
論文 参考訳(メタデータ) (2026-02-01T12:12:24Z) - PRISM: Purified Representation and Integrated Semantic Modeling for Generative Sequential Recommendation [28.629759086187352]
本稿では,PRISMとPureified RepresentationとIntegrated Semantic Modelingを組み合わせた新しい生成レコメンデーションフレームワークを提案する。
PRISMは4つの実世界のデータセットで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-23T08:50:16Z) - From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文 参考訳(メタデータ) (2026-01-19T20:33:53Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation [7.987662261007762]
CoIG(Chain-of-Image Generation)フレームワークは、画像生成を、人間がアートを作成する方法に類似したシーケンシャルでセマンティックなプロセスとして再構成する。
実験結果から,CoIGは確立されたベースラインモデルと比較して,競争力のあるロバスト性を実現しつつ,定量的監視性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-12-09T14:35:12Z) - Distill, Forget, Repeat: A Framework for Continual Unlearning in Text-to-Image Diffusion Models [42.10036183563499]
本稿では, 減量要求の順序の下で, 目標と安定性を確保できる新しい生成蒸留に基づく連続的アンラーニングフレームワークを提案する。
10段階の逐次ベンチマーク実験により,提案手法はより忠実な概念を忘れることが実証された。
このフレームワークは、大規模生成モデルのデプロイとメンテナンスの責任を負うための実行可能な経路を提供する。
論文 参考訳(メタデータ) (2025-12-02T11:22:32Z) - LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability [60.451734326001564]
textbfLongWeaveを導入し、Constraint-Verifier Evaluation(CoV-Eval)による実世界と検証のバランスをとる。
LongWeaveは7つの異なるタスクに対して、カスタマイズ可能な入出力長(最大64K/8Kトークン)をサポートする。
23大言語モデルの評価は、実世界の複雑さと出力長の増加に伴い、最先端モデルでさえ、長文生成において重大な課題に直面していることを示している。
論文 参考訳(メタデータ) (2025-10-28T12:11:12Z) - SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator [54.562217603802075]
帰納的バイアスを伴う最終層において,自然性(美容性)とアライメントを別々に投影するSONA(Sum of Naturalness and Alignment)を導入する。
クラス条件生成タスクの実験により、SONAは最先端の手法に比べて優れたサンプル品質と条件アライメントを達成することが示された。
論文 参考訳(メタデータ) (2025-10-06T08:26:06Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。