論文の概要: Reframing Image Difference Captioning with BLIP2IDC and Synthetic Augmentation
- arxiv url: http://arxiv.org/abs/2412.15939v1
- Date: Fri, 20 Dec 2024 14:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:49.725854
- Title: Reframing Image Difference Captioning with BLIP2IDC and Synthetic Augmentation
- Title(参考訳): BLIP2IDCによる画像差分キャプションと合成増強
- Authors: Gautier Evennou, Antoine Chaffin, Vivien Chappelier, Ewa Kijak,
- Abstract要約: BLIP2IDCは,画像差分キャプション(IDC)タスクへのBLIP2の適応であり,低コストで導入する。
我々は、実世界のIDCデータセットにおいて、2ストリームのアプローチよりも大きな差があることを示します。
また,IDCモデルの性能を非依存的に向上させるために合成拡張法を提案する。
- 参考スコア(独自算出の注目度): 5.887986127737718
- License:
- Abstract: The rise of the generative models quality during the past years enabled the generation of edited variations of images at an important scale. To counter the harmful effects of such technology, the Image Difference Captioning (IDC) task aims to describe the differences between two images. While this task is successfully handled for simple 3D rendered images, it struggles on real-world images. The reason is twofold: the training data-scarcity, and the difficulty to capture fine-grained differences between complex images. To address those issues, we propose in this paper a simple yet effective framework to both adapt existing image captioning models to the IDC task and augment IDC datasets. We introduce BLIP2IDC, an adaptation of BLIP2 to the IDC task at low computational cost, and show it outperforms two-streams approaches by a significant margin on real-world IDC datasets. We also propose to use synthetic augmentation to improve the performance of IDC models in an agnostic fashion. We show that our synthetic augmentation strategy provides high quality data, leading to a challenging new dataset well-suited for IDC named Syned1.
- Abstract(参考訳): 過去数年間に生成モデルの品質が上昇したことにより、重要なスケールで編集された画像の生成が可能になった。
このような技術の有害な影響に対抗するために、画像差分キャプション(IDC)タスクは、2つの画像の違いを記述することを目的としている。
このタスクは、単純な3Dレンダリング画像に対してうまく処理されるが、現実世界の画像では苦労する。
理由は2つある。トレーニングデータスカシティと、複雑な画像間のきめ細かい相違を捉えるのが難しいことだ。
そこで本稿では,既存の画像キャプションモデルをIDCタスクに適用し,IDCデータセットを拡張するための,シンプルかつ効果的なフレームワークを提案する。
我々は、BLIP2IDCを導入し、BLIP2を低計算コストでIDCタスクに適応させ、実世界のIDCデータセットにおいて、2ストリームのアプローチよりも優れた性能を示す。
また,IDCモデルの性能を非依存的に向上させるために合成拡張法を提案する。
我々の総合的な拡張戦略は高品質なデータを提供しており、IDCによく適合するSyned1という新しいデータセットに繋がることを示す。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion [19.54496184675988]
品質の低いデータや少ないデータは、実際にディープニューラルネットワークをトレーニングする上で大きな課題となっている。
拡散カリキュラム(DisCL)は、訓練段階ごとに画像合成のイメージガイダンスレベルを調整する。
DisCLは、多様性や品質に弱いかもしれない高感度画像を学習するウォームアップとして、高品質な画像から特徴を学ぶことに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-17T15:33:35Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。