論文の概要: FlowFixer: Towards Detail-Preserving Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2602.21402v1
- Date: Tue, 24 Feb 2026 22:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.625134
- Title: FlowFixer: Towards Detail-Preserving Subject-Driven Generation
- Title(参考訳): FlowFixer: 詳細なテーマ駆動生成を目指して
- Authors: Jinyoung Jun, Won-Dong Jang, Wenbin Ouyang, Raghudeep Gadde, Jungbeom Lee,
- Abstract要約: FlowFixerは、主題駆動生成のための洗練されたフレームワークである。
被写体の大きさや視点の変化によって世代中に失われた細部を復元する。
- 参考スコア(独自算出の注目度): 11.661021462312545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FlowFixer, a refinement framework for subject-driven generation (SDG) that restores fine details lost during generation caused by changes in scale and perspective of a subject. FlowFixer proposes direct image-to-image translation from visual references, avoiding ambiguities in language prompts. To enable image-to-image training, we introduce a one-step denoising scheme to generate self-supervised training data, which automatically removes high-frequency details while preserving global structure, effectively simulating real-world SDG errors. We further propose a keypoint matching-based metric to properly assess fidelity in details beyond semantic similarities usually measured by CLIP or DINO. Experimental results demonstrate that FlowFixer outperforms state-of-the-art SDG methods in both qualitative and quantitative evaluations, setting a new benchmark for high-fidelity subject-driven generation.
- Abstract(参考訳): FlowFixerは、被写体の大きさや視点の変化によって失われた生成時に失われた細部を復元する、被写体駆動生成(SDG)のための精細化フレームワークである。
FlowFixerは、ビジュアル参照からの直接画像変換を提案し、言語プロンプトの曖昧さを避ける。
イメージ・ツー・イメージのトレーニングを可能にするために,自己教師付きトレーニングデータを生成するワンステップのデノケーション方式を導入し,グローバルな構造を維持しながら,高頻度の詳細を自動的に除去し,実世界のSDGエラーを効果的にシミュレーションする。
さらに,CLIP や DINO によって測定される意味的類似性を超えて,細部における忠実度を適切に評価するためのキーポイントマッチングに基づくメトリクスを提案する。
実験の結果,FlowFixerは定性評価と定量的評価の両方において最先端のSDG法より優れており,高忠実度な主観的生成のための新しいベンチマークが設定されている。
関連論文リスト
- TIP: Resisting Gradient Inversion via Targeted Interpretable Perturbation in Federated Learning [8.156452885913108]
フェデレートラーニング(FL)は、データの局所性を維持しながら協調的なモデルトレーニングを促進する。
勾配の交換により、システムはグラディエント・インバージョン・アタック(GIAs)に弱い。
本稿では、モデル解釈可能性と周波数領域解析を統合する新しい防御フレームワークTIPを提案する。
論文 参考訳(メタデータ) (2026-02-12T06:32:49Z) - GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - From Filters to VLMs: Benchmarking Defogging Methods through Object Detection and Segmentation Performance [2.0524609401792397]
包括的なパイプラインの集合をベンチマークする構造化された経験的研究を提案する。
物体検出(mAP)とセグメンテーション(PQ, RQ, SQ)における画質と下流性能の評価を行った。
我々の分析では,デフォッギングが有効である場合,連鎖が相乗効果や劣化をもたらす場合,VLMベースのエディタが専用のアプローチとどのように比較されるかを明らかにした。
論文 参考訳(メタデータ) (2025-10-04T19:05:04Z) - NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world [24.251352190100135]
本稿では、光学フローとステレオタスクのための統合された自己教師付き一般化フレームワークである自己評価生成(SAG)を提案する。
従来の自己教師型手法とは異なり、SAGはデータ駆動であり、高度な再構成技術を用いてRGB画像から再構成フィールドを構築し、それに基づいてデータセットを生成する。
論文 参考訳(メタデータ) (2024-10-14T12:46:17Z) - Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。
本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。
データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。