論文の概要: Region in Context: Text-condition Image editing with Human-like semantic reasoning
- arxiv url: http://arxiv.org/abs/2510.16772v1
- Date: Sun, 19 Oct 2025 09:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.135624
- Title: Region in Context: Text-condition Image editing with Human-like semantic reasoning
- Title(参考訳): 文脈における領域:人間のような意味推論を用いたテキスト条件画像編集
- Authors: Thuy Phuong Vu, Dinh-Cuong Hoang, Minhhuy Le, Phan Xuan Tan,
- Abstract要約: Region in Contextは、テキスト条件の画像編集のための新しいフレームワークである。
視覚と言語の間で多段階のセマンティックアライメントを実行する。
本手法は,グローバルな画像コンテキストにおける各領域の役割を理解することを奨励する。
- 参考スコア(独自算出の注目度): 0.7233065479782753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has made significant progress in localizing and editing image regions based on text. However, most approaches treat these regions in isolation, relying solely on local cues without accounting for how each part contributes to the overall visual and semantic composition. This often results in inconsistent edits, unnatural transitions, or loss of coherence across the image. In this work, we propose Region in Context, a novel framework for text-conditioned image editing that performs multilevel semantic alignment between vision and language, inspired by the human ability to reason about edits in relation to the whole scene. Our method encourages each region to understand its role within the global image context, enabling precise and harmonized changes. At its core, the framework introduces a dual-level guidance mechanism: regions are represented with full-image context and aligned with detailed region-level descriptions, while the entire image is simultaneously matched to a comprehensive scene-level description generated by a large vision-language model. These descriptions serve as explicit verbal references of the intended content, guiding both local modifications and global structure. Experiments show that it produces more coherent and instruction-aligned results. Code is available at: https://github.com/thuyvuphuong/Region-in-Context.git
- Abstract(参考訳): 近年,テキストに基づく画像領域のローカライズと編集において大きな進歩を遂げている。
しかし、ほとんどのアプローチはこれらの領域を独立して扱い、各部分が全体的な視覚的・意味的な構成にどのように貢献するかを考慮せずに、局所的な手がかりにのみ依存する。
これはしばしば、一貫性のない編集、不自然な遷移、画像全体の一貫性の喪失をもたらす。
本研究では,視覚と言語間の多段階のセマンティックアライメントを実現する,テキスト条件付き画像編集のための新しいフレームワークであるRegional in Contextを提案する。
提案手法は,グローバルな画像コンテキストにおける各領域の役割を理解することを奨励し,高精度かつ調和的な変化を可能にする。
領域はフルイメージのコンテキストで表現され、詳細な領域レベルの記述と一致しているのに対して、全体像は大きな視覚言語モデルによって生成された包括的なシーンレベルの記述と同時に一致している。
これらの記述は意図された内容の明示的な言語的参照として機能し、局所的な修正とグローバルな構造の両方を導く。
実験により、よりコヒーレントで命令に沿った結果が得られることが示された。
コードは、https://github.com/thuyvuphuong/Region-in-Context.gitで入手できる。
関連論文リスト
- TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models [16.64400658301794]
TextRegionは、画像テキストモデルとSAM2の強みを組み合わせた、シンプルで効果的で、トレーニングなしのフレームワークである。
これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。
論文 参考訳(メタデータ) (2025-05-29T17:59:59Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.8726256912376]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (2021-09-09T17:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。