論文の概要: PhotoFramer: Multi-modal Image Composition Instruction
- arxiv url: http://arxiv.org/abs/2512.00993v1
- Date: Sun, 30 Nov 2025 17:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.531863
- Title: PhotoFramer: Multi-modal Image Composition Instruction
- Title(参考訳): PhotoFramer:マルチモーダル画像合成指導
- Authors: Zhiyuan You, Ke Wang, He Zhang, Xin Cai, Jinjin Gu, Tianfan Xue, Chao Dong, Zhoutong Zhang,
- Abstract要約: PhotoFramerはマルチモーダル・コンポジション・インストラクション・フレームワークである。
まず、自然言語の合成を改善する方法を記述し、うまく構成された例画像を生成する。
PhotoFramerは、プロのフォトグラファーを日常的に利用できるようにする、作曲アシスタントへの実践的な一歩を提供する。
- 参考スコア(独自算出の注目度): 46.0750537074047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composition matters during the photo-taking process, yet many casual users struggle to frame well-composed images. To provide composition guidance, we introduce PhotoFramer, a multi-modal composition instruction framework. Given a poorly composed image, PhotoFramer first describes how to improve the composition in natural language and then generates a well-composed example image. To train such a model, we curate a large-scale dataset. Inspired by how humans take photos, we organize composition guidance into a hierarchy of sub-tasks: shift, zoom-in, and view-change tasks. Shift and zoom-in data are sampled from existing cropping datasets, while view-change data are obtained via a two-stage pipeline. First, we sample pairs with varying viewpoints from multi-view datasets, and train a degradation model to transform well-composed photos into poorly composed ones. Second, we apply this degradation model to expert-taken photos to synthesize poor images to form training pairs. Using this dataset, we finetune a model that jointly processes and generates both text and images, enabling actionable textual guidance with illustrative examples. Extensive experiments demonstrate that textual instructions effectively steer image composition, and coupling them with exemplars yields consistent improvements over exemplar-only baselines. PhotoFramer offers a practical step toward composition assistants that make expert photographic priors accessible to everyday users. Codes, model weights, and datasets have been released in https://zhiyuanyou.github.io/photoframer.
- Abstract(参考訳): 写真撮影の過程ではコンポジションが重要になるが、多くのカジュアルユーザーはよく構成された画像をフレーム化するのに苦労している。
コンポジションガイダンスを提供するために,マルチモーダルなコンポジション・インストラクション・フレームワークであるPhotoFramerを紹介する。
不十分な合成画像が与えられた後、PhotoFramerはまず自然言語の合成を改善する方法を記述し、うまく構成されたサンプル画像を生成する。
このようなモデルをトレーニングするために、大規模なデータセットをキュレートする。
人間が写真を撮る方法にインスパイアされた私たちは、コンポジションガイダンスを、シフト、ズームイン、ビューチェンジタスクというサブタスクの階層にまとめました。
シフトデータとズームインデータは既存の収穫データセットからサンプリングされ、ビュー変更データは2段階のパイプラインを介して取得される。
まず、多視点データセットから様々な視点のペアをサンプリングし、分解モデルを訓練して、よく構成された画像を不十分な構成に変換する。
第2に、この分解モデルを専門家が撮影した写真に適用し、貧弱な画像を合成し、トレーニングペアを形成する。
このデータセットを用いて、テキストと画像の両方を共同で処理し、生成するモデルを微調整する。
大規模な実験では、テキストによる指示が画像合成を効果的に操り、それらを模範と結合することで、模範のみのベースラインよりも一貫した改善をもたらすことが示されている。
PhotoFramerは、プロのフォトグラファーを日常的に利用できるようにする、作曲アシスタントへの実践的な一歩を提供する。
コード、モデルウェイト、データセットがhttps://zhiyuanyou.github.io/photoframer.comでリリースされた。
関連論文リスト
- Instruction-based Image Manipulation by Watching How Things Move [35.44993722444448]
命令ベースの複雑な操作が可能なモデルであるInstructMoveをトレーニングする新しいデータセットを作成します。
本モデルでは,ポーズの調整,要素の並べ替え,カメラ視点の変更などのタスクにおいて,最先端の性能を示す。
論文 参考訳(メタデータ) (2024-12-16T18:56:17Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Exposure Bracketing Is All You Need For A High-Quality Image [50.822601495422916]
マルチ露光画像は、デノイング、デブロアリング、高ダイナミックレンジイメージング、超解像において相補的である。
本研究では,これらの課題を組み合わせ,高品質な画像を得るために露光ブラケット写真を活用することを提案する。
特に時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - ControlCom: Controllable Image Composition using Diffusion Model [45.48263800282992]
1つの拡散モデルにおいて4つのタスクを統一する制御可能な画像合成法を提案する。
また,拡散モデルにおける前景の詳細を強化するために,局所的な拡張モジュールを提案する。
提案手法は,公開ベンチマークと実世界のデータの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-08-19T14:56:44Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。