論文の概要: Retargeting Visual Data with Deformation Fields
- arxiv url: http://arxiv.org/abs/2311.13297v2
- Date: Mon, 5 Aug 2024 17:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:41:33.864853
- Title: Retargeting Visual Data with Deformation Fields
- Title(参考訳): 変形場を用いた視覚データの再ターゲティング
- Authors: Tim Elsner, Julia Berger, Tong Wu, Victor Czech, Lin Gao, Leif Kobbelt,
- Abstract要約: Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識を可能にする画像編集方法である。
本稿では、低情報量放射率の場所で変形を試みながら、出力を可塑性に保つニューラルネットワークを用いて変形を学習することを提案する。
異なる視覚データを用いて実験を行った結果,本手法は従来の手法に比べてコンテンツ認識に優れていた。
- 参考スコア(独自算出の注目度): 14.716129471469992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Seam carving is an image editing method that enable content-aware resizing, including operations like removing objects. However, the seam-finding strategy based on dynamic programming or graph-cut limits its applications to broader visual data formats and degrees of freedom for editing. Our observation is that describing the editing and retargeting of images more generally by a displacement field yields a generalisation of content-aware deformations. We propose to learn a deformation with a neural network that keeps the output plausible while trying to deform it only in places with low information content. This technique applies to different kinds of visual data, including images, 3D scenes given as neural radiance fields, or even polygon meshes. Experiments conducted on different visual data show that our method achieves better content-aware retargeting compared to previous methods.
- Abstract(参考訳): Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識のリサイズを可能にする画像編集方法である。
しかし、動的プログラミングやグラフカットに基づくSeam-finding戦略は、より広範なビジュアルデータフォーマットや編集の自由度に制限される。
我々の観察では、画像のより一般的に変位場による編集と再ターゲティングを記述することは、コンテンツ認識変形の一般化をもたらす。
情報量が少ない場所でのみ変形を図りながら、出力を可塑性に保つニューラルネットワークを用いて変形を学習することを提案する。
この技術は、画像、神経放射場として与えられる3Dシーン、ポリゴンメッシュなど、さまざまな種類の視覚データに適用できる。
異なる視覚データを用いて実験を行った結果,本手法は従来の手法と比較して,コンテンツ認識再ターゲティングの精度が向上していることがわかった。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。
我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。
編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:52Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。