論文の概要: Data augmentation to improve robustness of image captioning solutions
- arxiv url: http://arxiv.org/abs/2106.05437v1
- Date: Thu, 10 Jun 2021 00:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:39:37.167624
- Title: Data augmentation to improve robustness of image captioning solutions
- Title(参考訳): 画像キャプションソリューションの堅牢性向上のためのデータ拡張
- Authors: Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo
- Abstract要約: 本研究では2段階画像キャプションソリューションにおける動きのぼかしの影響について検討する。
特に、両段を増大させることで、CIDEr-Dの劣化を低減し、高い動きのぼかし強度を増大させる。
- 参考スコア(独自算出の注目度): 11.215352918313577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the impact of motion blur, a common quality flaw in
real world images, on a state-of-the-art two-stage image captioning solution,
and notice a degradation in solution performance as blur intensity increases.
We investigate techniques to improve the robustness of the solution to motion
blur using training data augmentation at each or both stages of the solution,
i.e., object detection and captioning, and observe improved results. In
particular, augmenting both the stages reduces the CIDEr-D degradation for high
motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to
6.8 on Vizwiz dataset.
- Abstract(参考訳): 本稿では,実世界画像における共通品質欠陥であるモーションボケが最先端の2段階画像キャプションソリューションに与える影響について検討し,ボケ強度の増加に伴う解性能の低下に注目した。
本研究では,各段階,すなわちオブジェクト検出とキャプションのトレーニングデータ拡張を用いて,動作のぼかしに対する解の堅牢性を向上させる手法について検討し,改良された結果を観察する。
特に、両方のステージを増強することで、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に、CIDEr-Dの劣化が減少する。
関連論文リスト
- High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文 参考訳(メタデータ) (2024-09-29T06:46:31Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Scale-aware Two-stage High Dynamic Range Imaging [13.587403084724015]
本稿では,高品質なゴーストフリー画像合成を実現するため,スケールアウェアな2段階ハイレンジイメージングフレームワーク(ST)を提案する。
具体的には,機能アライメントと2段階融合からなるフレームワークについて述べる。
特徴融合の第1段階では,ゴーストアーティファクトの少ない予備的な結果が得られる。
第2段階では,提案したSTの有効性を,速度と品質の観点から検証する。
論文 参考訳(メタデータ) (2023-03-12T05:17:24Z) - Semantically Accurate Super-Resolution Generative Adversarial Networks [2.0454959820861727]
セマンティックセグメンテーションの性能を高めるために,新しいアーキテクチャとドメイン固有の特徴損失を提案する。
提案手法は,全ての予測クラスにおいて,知覚的画像品質と定量的セグメンテーションの精度を向上することを示す。
この研究は、画像ベースとタスク固有の損失を共同で検討することにより、両者のパフォーマンスを向上し、空中画像のセマンティック・アウェア・スーパーレゾリューションにおける最先端の進歩を実証する。
論文 参考訳(メタデータ) (2022-05-17T23:05:27Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - Research on Mosaic Image Data Enhancement for Overlapping Ship Targets [0.0]
改善されたモザイクデータ強化方法を提案し、データセットの読み取り方法を最適化する。
改良されたアルゴリズムは、重なり合うターゲットの認識精度を2.5%改善し、目標損失時間を17%削減し、異なるビデオ解像度での認識安定性を27.01%向上させる。
論文 参考訳(メタデータ) (2021-05-11T14:44:03Z) - Evaluating COPY-BLEND Augmentation for Low Level Vision Tasks [28.628939818365932]
ノイズの多い画像からパッチをコピーし、クリーンな画像にブレンドすることで、根本的なアルゴリズムが影響を受けた領域をローカライズして回復し、復元された画像の知覚品質を高めます。
レポート: パフォーマンスの向上、トレーニングデータセットの要件の削減、低照度画像の強化、画像のデハージング、画像のデブレーションなどのタスクの早期収束など、ベースラインアルゴリズムを変更することなく。
論文 参考訳(メタデータ) (2021-03-10T06:17:52Z) - Event Enhanced High-Quality Image Recovery [34.46486617222021]
本稿では,イベントカメラから高品質な画像を取り出すために,イベント強化スパース学習ネットワーク(eSL-Net)を提案する。
合成データセットを用いてトレーニングした後、提案したeSL-Netは、最先端の性能を7~12dB向上させることができる。
論文 参考訳(メタデータ) (2020-07-16T13:51:15Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。