論文の概要: Object-IR: Leveraging Object Consistency and Mesh Deformation for Self-Supervised Image Retargeting
- arxiv url: http://arxiv.org/abs/2510.27236v1
- Date: Fri, 31 Oct 2025 06:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.012479
- Title: Object-IR: Leveraging Object Consistency and Mesh Deformation for Self-Supervised Image Retargeting
- Title(参考訳): Object-IR: オブジェクトの一貫性とメッシュの変形を利用した自己監督型イメージリターゲティング
- Authors: Tianli Liao, Ran Wang, Siqing Zhang, Lei Li, Guangen Liu, Chenyang Zhao, Heling Cao, Peng Li,
- Abstract要約: 本稿では,学習型メッシュワープ最適化問題としてイメージを再構成する自己教師型アーキテクチャであるObject-IRを提案する。
我々は、均一な剛性メッシュを目標アスペクト比で緩和し、畳み込みニューラルネットワークを用いて各メッシュグリッドの動きを予測し、変形メッシュを得る。
このフレームワークは、コンシューマグレードのGPU上でのリアルタイムパフォーマンスを維持しながら、任意の入力解像度を効率的に処理する。
- 参考スコア(独自算出の注目度): 18.51504816209345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliminating geometric distortion in semantically important regions remains an intractable challenge in image retargeting. This paper presents Object-IR, a self-supervised architecture that reformulates image retargeting as a learning-based mesh warping optimization problem, where the mesh deformation is guided by object appearance consistency and geometric-preserving constraints. Given an input image and a target aspect ratio, we initialize a uniform rigid mesh at the output resolution and use a convolutional neural network to predict the motion of each mesh grid and obtain the deformed mesh. The retargeted result is generated by warping the input image according to the rigid mesh in the input image and the deformed mesh in the output resolution. To mitigate geometric distortion, we design a comprehensive objective function incorporating a) object-consistent loss to ensure that the important semantic objects retain their appearance, b) geometric-preserving loss to constrain simple scale transform of the important meshes, and c) boundary loss to enforce a clean rectangular output. Notably, our self-supervised paradigm eliminates the need for manually annotated retargeting datasets by deriving supervision directly from the input's geometric and semantic properties. Extensive evaluations on the RetargetMe benchmark demonstrate that our Object-IR achieves state-of-the-art performance, outperforming existing methods in quantitative metrics and subjective visual quality assessments. The framework efficiently processes arbitrary input resolutions (average inference time: 0.009s for 1024x683 resolution) while maintaining real-time performance on consumer-grade GPUs. The source code will soon be available at https://github.com/tlliao/Object-IR.
- Abstract(参考訳): 意味的に重要な領域における幾何学的歪みの除去は、画像の再ターゲティングにおいて難しい課題である。
本稿では,画像再ターゲティングを学習に基づくメッシュワープ最適化問題として再構成する自己教師型アーキテクチャであるObject-IRを提案する。
入力画像と対象アスペクト比が与えられた場合、出力解像度で一様剛性メッシュを初期化し、畳み込みニューラルネットワークを用いて各メッシュグリッドの動きを予測し、変形メッシュを得る。
入力画像中の剛性メッシュと、出力解像度における変形メッシュとに応じて入力画像をワープして再ターゲット結果を生成する。
幾何学的歪みを軽減するために,包括的対象関数を組み込んだ設計を行う。
a) 重要な意味オブジェクトがその外観を維持することを保証するために、オブジェクトの一貫性を失うこと
ロ 重要なメッシュの簡易なスケール変換を制約する幾何保存損失
c) クリーンな矩形出力を強制する境界損失
特に、我々の自己監督パラダイムは、入力の幾何学的および意味的特性から直接監督を引き出すことにより、手動で注釈付けされた再ターゲットデータセットの必要性を排除している。
RetargetMeベンチマークの大規模な評価は、我々のObject-IRが最先端のパフォーマンスを達成し、定量的な測定や主観的な視覚的品質評価において既存の手法よりも優れていることを示している。
このフレームワークは、任意の入力解像度(平均推測時間:1024x683で0.009s)を効率的に処理し、コンシューマグレードのGPU上でリアルタイムのパフォーマンスを維持する。
ソースコードは近々https://github.com/tlliao/Object-IR.orgで公開される。
関連論文リスト
- Object-Centric 2D Gaussian Splatting: Background Removal and Occlusion-Aware Pruning for Compact Object Models [14.555667193538879]
本研究では,対象のマスクを応用して対象の再構成を可能にし,オブジェクト中心モデルを実現する手法を提案する。
提案手法は,オブジェクト中心のガウス表現とメッシュ表現を,ベースラインに比べて最大で96%小さく,最大で71%高速なコンパクトオブジェクトモデルを再構成する。
これらの表現は、外見の編集や物理シミュレーションのような下流のアプリケーションに、追加の処理なしですぐに利用することができる。
論文 参考訳(メタデータ) (2025-01-14T14:56:31Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Deformation-Invariant Neural Network and Its Applications in Distorted
Image Restoration and Analysis [8.009077765403287]
幾何学的歪みによって劣化した画像は、画像や物体認識などのコンピュータビジョンタスクにおいて重要な課題となる。
ディープラーニングに基づく画像モデルは通常、幾何学的に歪んだ画像に対して正確な性能を与えることができない。
本稿では、幾何学的に歪んだ画像の撮像タスクに対処するフレームワークである変形不変ニューラルネットワーク(DINN)を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:01:36Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。