論文の概要: Look here! A parametric learning based approach to redirect visual
attention
- arxiv url: http://arxiv.org/abs/2008.05413v1
- Date: Wed, 12 Aug 2020 16:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:30:32.547171
- Title: Look here! A parametric learning based approach to redirect visual
attention
- Title(参考訳): こっちを見ろ!
パラメトリック学習に基づく視覚的注意のリダイレクト
- Authors: Youssef Alami Mejjati and Celso F. Gomez and Kwang In Kim and Eli
Shechtman and Zoya Bylinskii
- Abstract要約: 画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
- 参考スコア(独自算出の注目度): 49.609412873346386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across photography, marketing, and website design, being able to direct the
viewer's attention is a powerful tool. Motivated by professional workflows, we
introduce an automatic method to make an image region more attention-capturing
via subtle image edits that maintain realism and fidelity to the original. From
an input image and a user-provided mask, our GazeShiftNet model predicts a
distinct set of global parametric transformations to be applied to the
foreground and background image regions separately. We present the results of
quantitative and qualitative experiments that demonstrate improvements over
prior state-of-the-art. In contrast to existing attention shifting algorithms,
our global parametric approach better preserves image semantics and avoids
typical generative artifacts. Our edits enable inference at interactive rates
on any image size, and easily generalize to videos. Extensions of our model
allow for multi-style edits and the ability to both increase and attenuate
attention in an image region. Furthermore, users can customize the edited
images by dialing the edits up or down via interpolations in parameter space.
This paper presents a practical tool that can simplify future image editing
pipelines.
- Abstract(参考訳): 写真、マーケティング、ウェブサイトデザインにおいて、視聴者の注意を向けることができることは強力なツールである。
プロのワークフローに触発されて,画像領域を微妙な画像編集によってより注意を惹きつける手法を導入し,現実性と忠実さをオリジナルに維持する。
入力画像とユーザが提供するマスクから、gazageshiftnetモデルは、前景と背景画像領域に別々に適用される、異なるグローバルパラメトリック変換のセットを予測する。
本稿では,先行研究よりも改善を示す定量的・定性的な実験結果を示す。
既存の注意シフトアルゴリズムとは対照的に、我々のグローバルパラメトリックアプローチはイメージセマンティクスをより良く保存し、典型的な生成的アーティファクトを避ける。
私たちの編集では、任意の画像サイズでインタラクティブなレートで推論が可能で、ビデオに簡単に一般化できます。
モデルの拡張により、マルチスタイルな編集が可能となり、画像領域での注意を増減・弱めることができる。
さらに、ユーザーはパラメータ空間の補間によって編集をダイヤルすることで、編集画像をカスタマイズできる。
本稿では,将来の画像編集パイプラインを簡素化する実用的なツールを提案する。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。