論文の概要: Retargeting Visual Data with Deformation Fields
- arxiv url: http://arxiv.org/abs/2311.13297v1
- Date: Wed, 22 Nov 2023 10:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:16:04.561193
- Title: Retargeting Visual Data with Deformation Fields
- Title(参考訳): 変形場を用いた視覚データの再ターゲティング
- Authors: Tim Elsner, Julia Berger, Tong Wu, Victor Czech, Lin Gao, Leif Kobbelt
- Abstract要約: Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識を可能にする画像編集方法である。
本稿では、低情報量放射率の場所で変形を試みながら、出力を可塑性に保つニューラルネットワークを用いて変形を学習することを提案する。
異なる視覚データを用いて実験を行った結果,本手法は従来の手法に比べてコンテンツ認識に優れていた。
- 参考スコア(独自算出の注目度): 15.593443616565931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Seam carving is an image editing method that enable content-aware resizing,
including operations like removing objects. However, the seam-finding strategy
based on dynamic programming or graph-cut limits its applications to broader
visual data formats and degrees of freedom for editing. Our observation is that
describing the editing and retargeting of images more generally by a
displacement field yields a generalisation of content-aware deformations. We
propose to learn a deformation with a neural network that keeps the output
plausible while trying to deform it only in places with low information
content. This technique applies to different kinds of visual data, including
images, 3D scenes given as neural radiance fields, or even polygon meshes.
Experiments conducted on different visual data show that our method achieves
better content-aware retargeting compared to previous methods.
- Abstract(参考訳): Seam Carvingは、オブジェクトの削除などの操作を含むコンテンツ認識のリサイズを可能にする画像編集方法である。
しかし、動的プログラミングやグラフカットに基づくSeam-finding戦略は、より広範なビジュアルデータフォーマットや編集の自由度に制限される。
我々は,画像の編集と再ターゲティングを変位場によってより一般的に記述することで,コンテンツ認識変形の一般化を実現した。
本稿では,情報量の低い場所でのみ変形を試みながら,出力を妥当に保つニューラルネットワークを用いた変形学習を提案する。
この技術は、画像、神経放射場として与えられる3Dシーン、ポリゴンメッシュなど、さまざまな種類の視覚データに適用できる。
異なる視覚データを用いて実験を行った結果,従来の手法に比べてコンテンツ認識再ターゲティングが良好であることが判明した。
関連論文リスト
- VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Mesh-Guided Neural Implicit Field Editing [42.78979161815414]
本稿では,ニューラルネットワークの編集におけるガイド機構としてメッシュを用いた新しいアプローチを提案する。
まず,ニューラル暗黙フィールドから多角形メッシュ抽出のためのマーチングテトラヘドラを用いた微分可能手法を提案する。
次に、この抽出メッシュにボリュームレンダリングから得られた色を割り当てるために、微分可能な色抽出器を設計する。
この差別化可能なカラーメッシュは、暗黙のメッシュから暗示のフィールドへの勾配のバックプロパゲーションを可能にし、ニューラルな暗示のフィールドの幾何学と色をユーザが容易に操作できるようにする。
論文 参考訳(メタデータ) (2023-12-04T18:59:58Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - NeRF-Editing: Geometry Editing of Neural Radiance Fields [43.256317094173795]
暗黙のニューラルレンダリングは、シーンの新規なビュー合成において大きな可能性を示している。
本研究では,シーンの暗黙的な表現に対して,ユーザが制御可能な形状変形を実行できるようにする手法を提案する。
我々のフレームワークは、合成データだけでなく、ユーザによってキャプチャされた実際のシーンでも理想的な編集結果を得ることができる。
論文 参考訳(メタデータ) (2022-05-10T15:35:52Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。