論文の概要: Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting
- arxiv url: http://arxiv.org/abs/2411.10309v1
- Date: Fri, 15 Nov 2024 16:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:03.781507
- Title: Modification Takes Courage: Seamless Image Stitching via Reference-Driven Inpainting
- Title(参考訳): 修正には手間がかかる - 参照駆動のインペインティングによるシームレスなイメージスティッチ
- Authors: Ziqi Xie, Xiao Lai, Weidong Zhao, Xianhui Liu, Wenlong Hou,
- Abstract要約: 現在の画像縫合法は、不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著な縫い目を生み出す。
本稿では, 画像の融合と整形を基準ベースインペイントモデルとして再構成する参照駆動型インペイント・スティッチャ (RDIStitcher) を提案する。
本稿では,Multimodal Large Language Models (MLLM) を用いた画像品質評価手法を提案する。
- 参考スコア(独自算出の注目度): 0.17975553762582286
- License:
- Abstract: Current image stitching methods often produce noticeable seams in challenging scenarios such as uneven hue and large parallax. To tackle this problem, we propose the Reference-Driven Inpainting Stitcher (RDIStitcher), which reformulates the image fusion and rectangling as a reference-based inpainting model, incorporating a larger modification fusion area and stronger modification intensity than previous methods. Furthermore, we introduce a self-supervised model training method, which enables the implementation of RDIStitcher without requiring labeled data by fine-tuning a Text-to-Image (T2I) diffusion model. Recognizing difficulties in assessing the quality of stitched images, we present the Multimodal Large Language Models (MLLMs)-based metrics, offering a new perspective on evaluating stitched image quality. Compared to the state-of-the-art (SOTA) method, extensive experiments demonstrate that our method significantly enhances content coherence and seamless transitions in the stitched images. Especially in the zero-shot experiments, our method exhibits strong generalization capabilities. Code: https://github.com/yayoyo66/RDIStitcher
- Abstract(参考訳): 現在の画像縫合法は、しばしば不均一な色相や大きな視差のような挑戦的なシナリオにおいて顕著なシマを生じさせる。
この問題に対処するために,画像融合と矩形化を基準ベース塗装モデルとして再構成する参照駆動塗布スチッチャー (RDIStitcher) を提案する。
さらに,テキスト・ツー・イメージ拡散モデル(T2I)を微調整することでラベル付きデータを必要としないRDIStitcherの実装を可能にする自己教師型モデルトレーニング手法を提案する。
縫合画像の品質評価の難しさを認識し,Multimodal Large Language Models (MLLMs) ベースのメトリクスを提示し,縫合画像の品質評価の新しい視点を提供する。
現状技術 (SOTA) 法と比較すると, 縫合画像のコンテントコヒーレンスやシームレスな遷移を著しく向上させる実験が広く行われている。
特にゼロショット実験では,強い一般化能力を示す。
コード:https://github.com/yayoyo66/RDIStitcher
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle
CT Reconstruction [42.028139152832466]
Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。
DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。
論文 参考訳(メタデータ) (2022-11-22T15:30:38Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。