論文の概要: OPRO: Orthogonal Panel-Relative Operators for Panel-Aware In-Context Image Generation
- arxiv url: http://arxiv.org/abs/2603.27637v1
- Date: Sun, 29 Mar 2026 11:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.051658
- Title: OPRO: Orthogonal Panel-Relative Operators for Panel-Aware In-Context Image Generation
- Title(参考訳): OPRO: パネル対応インコンテキスト画像生成のための直交パネル関連演算子
- Authors: Sanghyeon Lee, Minwoo Lee, Euijin Shin, Kangyeol Kim, Seunghwan Choi, Jaegul Choo,
- Abstract要約: 予め学習した拡散変換器を用いたパネル認識インコンテキスト画像生成のためのパラメータ効率適応手法を提案する。
有効パネル相対条件付けを有効にすることにより、提案手法は、コンテクスト内画像に基づく命令編集パイプラインを一貫して改善する。
- 参考スコア(独自算出の注目度): 44.40961862257952
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a parameter-efficient adaptation method for panel-aware in-context image generation with pre-trained diffusion transformers. The key idea is to compose learnable, panel-specific orthogonal operators onto the backbone's frozen positional encodings. This design provides two desirable properties: (1) isometry, which preserves the geometry of internal features, and (2) same-panel invariance, which maintains the model's pre-trained intra-panel synthesis behavior. Through controlled experiments, we demonstrate that the effectiveness of our adaptation method is not tied to a specific positional encoding design but generalizes across diverse positional encoding regimes. By enabling effective panel-relative conditioning, the proposed method consistently improves in-context image-based instructional editing pipelines, including state-of-the-art approaches.
- Abstract(参考訳): 予め学習した拡散変換器を用いたパネル認識インコンテキスト画像生成のためのパラメータ効率適応手法を提案する。
鍵となるアイデアは、学習可能なパネル固有の直交演算子を背骨の凍った位置エンコーディングに組み立てることである。
この設計は、(1)内部特徴の幾何を保存する等尺法と(2)モデルの事前訓練されたパネル内合成挙動を維持する同パネル不変性という2つの望ましい特性を提供する。
制御実験により, 本手法の有効性は, 特定の位置符号化設計に縛られず, 多様な位置符号化方式にまたがって一般化されることが実証された。
有効パネル相対条件付けを有効にすることにより、提案手法は、最先端のアプローチを含む、コンテキスト内画像に基づく命令編集パイプラインを一貫して改善する。
関連論文リスト
- Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation [0.3437656066916039]
画像セグメント化の参照は、自然言語表現によって記述された画像領域のためのピクセルレベルのマスクを作成することを目的としている。
画像セグメンテーションを参照するための空間分割型エキスパートルーティングアーキテクチャSERAを提案する。
SERAは、視覚言語フレームワーク内の2つの相補的な段階において、軽量で表現を意識した専門家の洗練を導入する。
論文 参考訳(メタデータ) (2026-03-13T00:37:20Z) - Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - Pro-DG: Procedural Diffusion Guidance for Architectural Facade Generation [46.76076836382595]
Pro-DGは、手続き的に制御可能なフォトリアリスティックファサード生成のためのフレームワークである。
文法規則を用いてファサードのレイアウトを再構築し、ユーザ定義の変換によってその構造を編集する。
論文 参考訳(メタデータ) (2025-04-02T10:16:19Z) - Compositional Inversion for Stable Diffusion Models [64.79261401944994]
ユーザ画像から提供される関心の概念を取り入れてパーソナライズされた画像を生成する。
既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の圧倒的な存在が他の望ましい概念の欠如につながっている。
本稿では,合成埋め込みのコア分布への反転過程を導出する手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T10:57:46Z) - Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models [0.6345523830122168]
我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。
この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
論文 参考訳(メタデータ) (2023-12-09T02:55:35Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - StereoFlowGAN: Co-training for Stereo and Flow with Unsupervised Domain
Adaptation [12.888776352711595]
合成画像領域と実画像領域間の画像間変換を利用したステレオマッチングと光フロー推定のための新しいトレーニング手法を提案する。
提案手法は,合成画像からの地味情報のみを頼りながら,実画像のシナリオに優れるモデルの訓練を可能にする。
論文 参考訳(メタデータ) (2023-09-04T22:34:14Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Image Morphing with Perceptual Constraints and STN Alignment [70.38273150435928]
本稿では,一対の入力画像で動作する条件付きGANモーフィングフレームワークを提案する。
特別なトレーニングプロトコルは、知覚的類似性損失と組み合わせてフレームのシーケンスを生成し、時間とともにスムーズな変換を促進する。
我々は、古典的かつ潜時的な空間変形技術との比較を行い、自己スーパービジョンのための一連の画像から、我々のネットワークが視覚的に楽しむモーフィング効果を生成することを実証する。
論文 参考訳(メタデータ) (2020-04-29T10:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。