Fugu-MT 論文翻訳(概要): DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

論文の概要: DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

arxiv url: http://arxiv.org/abs/2602.18282v1
Date: Fri, 20 Feb 2026 15:11:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.358857
Title: DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control
Title（参考訳）: DEIG:細粒化セマンティック制御による細粒化インスタンス生成
Authors: Shiyan Du, Conghan Yue, Xinyu Cheng, Dongyu Zhang,
Abstract要約: DEIGはきめ細かな制御可能なマルチインスタンス生成のための新しいフレームワークである。リッチでローカライズされたテキスト記述と正確に一致する、視覚的に一貫性のあるマルチインスタンスシーンを生成する。 DeIG-Benchは、地域レベルのアノテーションと、人間とオブジェクトの両方に対するマルチ属性プロンプトを備えた新しいベンチマークである。
参考スコア（独自算出の注目度）: 5.185018120081533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Instance Generation has advanced significantly in spatial placement and attribute binding. However, existing approaches still face challenges in fine-grained semantic understanding, particularly when dealing with complex textual descriptions. To overcome these limitations, we propose DEIG, a novel framework for fine-grained and controllable multi-instance generation. DEIG integrates an Instance Detail Extractor (IDE) that transforms text encoder embeddings into compact, instance-aware representations, and a Detail Fusion Module (DFM) that applies instance-based masked attention to prevent attribute leakage across instances. These components enable DEIG to generate visually coherent multi-instance scenes that precisely match rich, localized textual descriptions. To support fine-grained supervision, we construct a high-quality dataset with detailed, compositional instance captions generated by VLMs. We also introduce DEIG-Bench, a new benchmark with region-level annotations and multi-attribute prompts for both humans and objects. Experiments demonstrate that DEIG consistently outperforms existing approaches across multiple benchmarks in spatial consistency, semantic accuracy, and compositional generalization. Moreover, DEIG functions as a plug-and-play module, making it easily integrable into standard diffusion-based pipelines.
Abstract（参考訳）: マルチインスタンス生成は空間配置と属性結合において著しく進歩した。しかし、既存のアプローチは、特に複雑なテキスト記述を扱う際には、きめ細かい意味理解の課題に直面している。これらの制約を克服するため、我々は細粒度で制御可能なマルチインスタンス生成のための新しいフレームワークであるDEIGを提案する。 DEIGは、テキストエンコーダの埋め込みをコンパクトなインスタンス認識表現に変換するインスタンス詳細エクストラクタ(IDE)と、インスタンスベースのマスク付き注意を適用してインスタンス間の属性漏洩を防止するDetail Fusion Module(DFM)を統合する。これらのコンポーネントにより、DEIGはリッチでローカライズされたテキスト記述と正確に一致する視覚的に一貫性のあるマルチインスタンスシーンを生成することができる。細粒度監視を支援するため,VLMが生成した詳細なインスタンスキャプションを組み込んだ高品質なデータセットを構築した。また、DIG-Benchは、地域レベルのアノテーションと、人間とオブジェクトの両方に対するマルチ属性プロンプトを備えた新しいベンチマークである。実験により、DIGは空間的整合性、意味的正確性、構成的一般化において、複数のベンチマークで既存のアプローチを一貫して上回っていることが示された。さらに、DEIGはプラグイン・アンド・プレイモジュールとして機能し、標準拡散ベースのパイプラインに容易に統合できる。

関連論文リスト

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models [21.682989096955467]
AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。 AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-01T22:25:23Z)
InstanceV: Instance-Level Video Generation [97.01147000740417]
i) インスタンスレベルの制御とi) グローバルなセマンティック一貫性を実現するためのビデオ生成フレームワークであるInstanceVを提案する。ローカルインスタンスとグローバルなセマンティクスを接続する共有時間ステップ適応型プロンプト拡張モジュールを導入する。最後に、一般的なビデオ品質指標とインスタンス対応指標を組み合わせた、InstanceBenchという新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-28T12:52:37Z)
RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。 RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文参考訳（メタデータ） (2025-10-11T03:06:39Z)
Improving Generalized Visual Grounding with Instance-aware Joint Learning [45.53531162436934]
汎用的なビジュアルグラウンドタスクは、マルチターゲットおよび非ターゲットシナリオに対応するように設計されている。本稿では,GRECとGRESの両方に対応するインスタンス認識機能を備えたフレームワークであるInstanceVGを提案する。フレームワークをインスタンス化するために、各インスタンスクエリに事前参照ポイントを割り当てます。
論文参考訳（メタデータ） (2025-09-17T07:00:51Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-Identification [17.10113184019939]
ReID(Multi-modal object Re-Identification)は、不均一なモーダルをまたいだ正確な同一性を実現することを目的としている。本稿では属性信頼度に基づく信頼性の高いキャプション生成パイプラインを提案する。また,多様なIDパターンをモデル化するための新しいReIDフレームワークであるNEXTを提案する。
論文参考訳（メタデータ） (2025-05-26T13:52:28Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis [33.52454028815209]
マルチインスタンス生成(MIG)タスクを導入し、単一のイメージ内で複数のインスタンスを生成することに焦点を当てる。 MIGは、インスタンス間の属性リークを避けること、多様なインスタンス記述をサポートすること、反復生成における一貫性を維持することの3つの大きな課題に直面している。これらの手法を評価するためにCOCO-MIGとMultimodal-MIGベンチマークを導入する。
論文参考訳（メタデータ） (2024-07-02T14:59:37Z)
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis [22.27724733876081]
本稿では,複数のインスタンスを同時に生成するマルチインスタンス生成(MIG)タスクを提案する。我々は、MIGタスクの課題に対処するために、MIGC(Multi-Instance Generation Controller)という革新的なアプローチを導入する。 MIGタスクにおける生成モデルの性能を評価するため、COCO-MIGベンチマークと評価パイプラインを提供する。
論文参考訳（メタデータ） (2024-02-08T04:52:36Z)
LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文参考訳（メタデータ） (2023-10-16T17:57:37Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。