論文の概要: VINS-120K: Ultra High-Resolution Image Editing with A Large-Scale Dataset
- arxiv url: http://arxiv.org/abs/2605.23518v1
- Date: Fri, 22 May 2026 11:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.329778
- Title: VINS-120K: Ultra High-Resolution Image Editing with A Large-Scale Dataset
- Title(参考訳): VINS-120K:大規模データセットによる超高解像度画像編集
- Authors: Zhizhou Chen, Shanyan Guan, Zhanxin Gao, En Ci, Yanhao Ge, Wei Li, Zhenyu Zhang, Jian Yang, Ying Tai,
- Abstract要約: 我々は、命令ベースのUHR画像編集のための最初の大規模データセットであるVINS-120Kを紹介する。
我々は、事前訓練された非高分解能モデルをUHR体制に拡張するための高周波認識後適応戦略を開発する。
実験により,UHR画像編集における微細なディテール合成とテクスチャリアリズムの改善が確認された。
- 参考スコア(独自算出の注目度): 35.077683100413076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Directly editing ultra-high-resolution (UHR) images is valuable but underexplored, primarily due to the lack of high-quality data and the challenge in modeling high-frequency texture details. We introduce VINS-120K, the first large-scale dataset for instruction-based UHR image editing, comprising 120K carefully curated triplets of instruction, input image, and edited image. Each image exceeds 4K resolution ($\geq$4096 $\times$ 4096) and is filtered through a rigorous multi-stage pipeline to ensure visual quality, instruction alignment, and aesthetic fidelity. Built on VINS-120K, we further develop a high-frequency-aware post-adaptation strategy to extend pretrained non-high-resolution models to the UHR regime. We also present VINS-4KEval, a benchmark covering diverse editing types, to facilitate consistent evaluation in UHR settings. Experiments confirm that our work improves fine-grained detail synthesis and texture realism in UHR image editing.
- Abstract(参考訳): 超高解像度(UHR)画像を直接編集することは価値があるが、主に高品質なデータがないことや、高周波テクスチャの詳細をモデル化することの難しさから、過小評価されている。
我々は,命令ベースのUHR画像編集のための最初の大規模データセットであるVINS-120Kを紹介した。
それぞれの画像は4K解像度($4096$\times$4096)を超え、厳格なマルチステージパイプラインを通してフィルタリングされ、視覚的品質、指示アライメント、美的忠実さが保証される。
VINS-120K上に構築され、事前訓練された非高分解能モデルを拡張してUHR体制に拡張するための高周波対応後適応戦略をさらに発展させる。
また、UHR設定における一貫した評価を容易にするために、多様な編集タイプをカバーするベンチマークVINS-4KEvalを提案する。
実験により,UHR画像編集における微細なディテール合成とテクスチャリアリズムの改善が確認された。
関連論文リスト
- PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset [93.70328662327375]
テキスト・ツー・イメージ(T2I)モデルは、最近1Kと2Kの解像度で顕著な進歩を遂げている。
超高分解能(UHR)画像生成は、高分解能コンテンツの不足と複雑さのために大きな課題となる。
PixVerve-95Kは、慎重に設計されたデータパイプラインでキュレートされた高品質でオープンソースのUHR T2Iデータセットである。
論文 参考訳(メタデータ) (2026-05-19T17:35:09Z) - Towards Ultra-High-Definition Image Deraining: A Benchmark and An Efficient Method [42.331058889312466]
本稿では,4K解像度で13,000枚の画像対を含む4K-Rain13kの大規模UHD画像デライニングデータセットについて述べる。
我々は,この課題をより効果的かつ効率的な視覚ベースアーキテクチャ (UDR-Mixer) を開発した。
論文 参考訳(メタデータ) (2024-05-27T11:45:08Z) - Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge Survey [116.29700317843043]
本稿では,AIS 2024 Real-Time Image Super-Resolution Challengeの一環として,新しいベンチマークを提案する。
圧縮された画像を540pから4Kの解像度で、商用GPUでリアルタイムでアップスケールすることを目指している。
デジタルアートからゲーム、写真まで、さまざまな4K画像を含む多様なテストセットを使用します。
論文 参考訳(メタデータ) (2024-04-25T10:12:42Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z) - Towards Efficient SDRTV-to-HDRTV by Learning from Image Formation [51.26219245226384]
モダンディスプレイは、高ダイナミックレンジ(WCG)と広色域(SDR)で映像コンテンツをレンダリングすることができる
利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。
我々は、SDRTV/TVコンテンツの形成をモデル化し、SDRTV-to-TVタスクを定義し、分析する。
本手法は主に超高精細テレビコンテンツ向けに設計されており、4K解像度画像の処理に有効で軽量である。
論文 参考訳(メタデータ) (2023-09-08T02:50:54Z) - HQ-50K: A Large-scale, High-quality Dataset for Image Restoration [105.22191357934398]
HQ-50Kには5万の高品質の画像があり、テクスチャの詳細とセマンティックな多様性がある。
既存の画像復元データセットを5つの異なる視点から分析する。
HQ-50Kは、データキュレーションプロセスでこれら5つの側面をすべて考慮し、すべての要件を満たす。
論文 参考訳(メタデータ) (2023-06-08T17:44:21Z) - Towards Efficient and Scale-Robust Ultra-High-Definition Image
Demoireing [71.62289021118983]
本研究では、4Kモアレ画像に対処する効率的なベースラインモデルESDNetを提案する。
我々の手法は、より軽量でありながら、最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-07-20T14:20:52Z) - One-shot Ultra-high-Resolution Generative Adversarial Network That
Synthesizes 16K Images On A Single GPU [1.9060575156739825]
OUR-GANは、単一のトレーニング画像から反復的でない16K画像を生成するワンショット生成対向ネットワークフレームワークである。
OUR-GANは12.5GBのGPUメモリと4Kの画像をわずか4.29GBで合成できる。
OUR-GANは、単一のコンシューマGPU上で反復的でないUHR画像を生成する最初のワンショット画像合成器である。
論文 参考訳(メタデータ) (2022-02-28T13:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。