論文の概要: AssetDropper: Asset Extraction via Diffusion Models with Reward-Driven Optimization
- arxiv url: http://arxiv.org/abs/2506.07738v1
- Date: Fri, 06 Jun 2025 01:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.966506
- Title: AssetDropper: Asset Extraction via Diffusion Models with Reward-Driven Optimization
- Title(参考訳): AssetDropper: Reward-Driven Optimization を用いた拡散モデルによるアセット抽出
- Authors: Lanjiong Li, Guanhua Zhao, Lingting Zhu, Zeyu Cai, Lequan Yu, Jian Zhang, Zeyu Wang,
- Abstract要約: AssetDropperは参照イメージから資産を抽出するように設計されたフレームワークである。
提案モデルでは,入力画像から選択した被験者の正面図を抽出する。
我々は、フィードバックでクローズドループを満たすために、事前訓練された報酬モデルを採用する。
- 参考スコア(独自算出の注目度): 18.423325028018205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on generative models has primarily focused on creating product-ready visual outputs; however, designers often favor access to standardized asset libraries, a domain that has yet to be significantly enhanced by generative capabilities. Although open-world scenes provide ample raw materials for designers, efficiently extracting high-quality, standardized assets remains a challenge. To address this, we introduce AssetDropper, the first framework designed to extract assets from reference images, providing artists with an open-world asset palette. Our model adeptly extracts a front view of selected subjects from input images, effectively handling complex scenarios such as perspective distortion and subject occlusion. We establish a synthetic dataset of more than 200,000 image-subject pairs and a real-world benchmark with thousands more for evaluation, facilitating the exploration of future research in downstream tasks. Furthermore, to ensure precise asset extraction that aligns well with the image prompts, we employ a pre-trained reward model to fulfill a closed-loop with feedback. We design the reward model to perform an inverse task that pastes the extracted assets back into the reference sources, which assists training with additional consistency and mitigates hallucination. Extensive experiments show that, with the aid of reward-driven optimization, AssetDropper achieves the state-of-the-art results in asset extraction. Project page: AssetDropper.github.io.
- Abstract(参考訳): 生成モデルに関する最近の研究は、主に製品対応のビジュアルアウトプットの作成に焦点が当てられているが、デザイナはしばしば、生成能力によって大幅に向上していない標準化された資産ライブラリへのアクセスを好んでいる。
オープンワールドシーンはデザイナーに豊富な材料を提供するが、高品質の標準資産を効率的に抽出することは依然として課題である。
そこで我々は,参照画像からアセットを抽出し,オープンワールドのアセットパレットを提供するAssetDropperを紹介した。
提案モデルでは,視点歪みや被写体閉塞といった複雑なシナリオを効果的に扱えるように,入力画像から選択した被験者の正面像を抽出する。
我々は、20万以上の画像オブジェクトペアからなる合成データセットと、数千以上の評価のための実世界のベンチマークを構築し、下流タスクにおける将来の研究の探索を容易にする。
さらに,画像のプロンプトに整合した正確なアセット抽出を実現するために,事前学習した報酬モデルを用いて,フィードバックを伴うクローズドループを実現する。
我々は、抽出した資産を基準源にペーストする逆タスクを実行するために報酬モデルを設計し、さらなる一貫性のあるトレーニングを支援し、幻覚を緩和する。
大規模な実験により、報酬駆動最適化の助けを借りて、AssetDropperは資産抽出の最先端の結果を達成することが示されている。
プロジェクトページ: AssetDropper.github.io
関連論文リスト
- Where's the liability in the Generative Era? Recovery-based Black-Box Detection of AI-Generated Content [42.68683643671603]
APIアクセスのみを必要とする新しいブラックボックス検出フレームワークを導入する。
画像がモデル自身によって生成された可能性を測定する。
マスクされた画像入力をサポートしないブラックボックスモデルに対して、ターゲットモデル分布に適合するように訓練された費用効率の良い代理モデルを導入する。
論文 参考訳(メタデータ) (2025-05-02T05:11:35Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Efficiently Collecting Training Dataset for 2D Object Detection by Online Visual Feedback [5.015678820698308]
ディープラーニングに基づく視覚システムの訓練には、かなりの数の画像のマニュアルアノテーションが必要である。
本稿では,Webアプリケーションを用いたHuman-in-the-loopデータセット収集手法を提案する。
マルチビューオブジェクト画像データセットの収集を楽しい方法で促進し,作業負荷と性能を相殺するために,3種類のオンライン視覚フィードバック機能を提案する。
論文 参考訳(メタデータ) (2023-04-11T00:17:28Z) - Energy-Inspired Self-Supervised Pretraining for Vision Models [36.70550531181131]
エネルギーベースモデル(EBM)にインスパイアされた自己教師型ビジョンモデル事前学習フレームワークを導入する。
提案手法では,1つのネットワークの前方・後方通過としてエネルギー推定とデータ復元をモデル化する。
提案手法は,学習のエポックを極端に少なくして,同等で,さらに優れた性能を提供できることを示す。
論文 参考訳(メタデータ) (2023-02-02T19:41:00Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Rich Feature Distillation with Feature Affinity Module for Efficient
Image Dehazing [1.1470070927586016]
この作業は、単一イメージのヘイズ除去のためのシンプルで軽量で効率的なフレームワークを導入します。
我々は、ヘテロジニアス知識蒸留の概念を用いて、軽量な事前学習された超解像モデルから豊富な「暗黒知識」情報を利用する。
本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対する我々のフレームワークの堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-13T18:32:44Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。