Fugu-MT 論文翻訳(概要): Data augmentation to improve robustness of image captioning solutions

論文の概要: Data augmentation to improve robustness of image captioning solutions

arxiv url: http://arxiv.org/abs/2106.05437v1
Date: Thu, 10 Jun 2021 00:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-11 14:39:37.167624
Title: Data augmentation to improve robustness of image captioning solutions
Title（参考訳）: 画像キャプションソリューションの堅牢性向上のためのデータ拡張
Authors: Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo
Abstract要約: 本研究では2段階画像キャプションソリューションにおける動きのぼかしの影響について検討する。特に、両段を増大させることで、CIDEr-Dの劣化を低減し、高い動きのぼかし強度を増大させる。
参考スコア（独自算出の注目度）: 11.215352918313577
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the impact of motion blur, a common quality flaw in real world images, on a state-of-the-art two-stage image captioning solution, and notice a degradation in solution performance as blur intensity increases. We investigate techniques to improve the robustness of the solution to motion blur using training data augmentation at each or both stages of the solution, i.e., object detection and captioning, and observe improved results. In particular, augmenting both the stages reduces the CIDEr-D degradation for high motion blur intensity from 68.7 to 11.7 on MS COCO dataset, and from 22.4 to 6.8 on Vizwiz dataset.
Abstract（参考訳）: 本稿では,実世界画像における共通品質欠陥であるモーションボケが最先端の2段階画像キャプションソリューションに与える影響について検討し,ボケ強度の増加に伴う解性能の低下に注目した。本研究では,各段階,すなわちオブジェクト検出とキャプションのトレーニングデータ拡張を用いて,動作のぼかしに対する解の堅牢性を向上させる手法について検討し,改良された結果を観察する。特に、両方のステージを増強することで、MS COCOデータセットでは68.7から11.7に、Vizwizデータセットでは22.4から6.8に、CIDEr-Dの劣化が減少する。

関連論文リスト

MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration [53.180212987726556]
動作回復ベンチマークの限界に対処する2つの新しいマルチタスクデータセットであるMIOReとVAR-MIOReを紹介する。私たちのデータセットは、複雑なエゴカメラの動き、動的マルチオブジェクト相互作用、深さ依存のぼかし効果など、幅広い動きシナリオを捉えています。
論文参考訳（メタデータ） (2025-09-08T15:34:31Z)
Taming Consistency Distillation for Accelerated Human Image Animation [47.63111489003292]
DanceLCMは、たった2-4ステップで、最先端のビデオ拡散モデルに匹敵する結果を得る。コードとモデルは公開されます。
論文参考訳（メタデータ） (2025-04-15T12:44:53Z)
Efficient Transformer for High Resolution Image Motion Deblurring [0.0]
本稿では,高分解能イメージモーションデブロアに対するRestormerアーキテクチャの総合的研究と改良について述べる。モデル複雑性を18.4%削減し、最適化された注意機構によって性能を維持または改善するアーキテクチャ変更を導入する。以上の結果から, 思考的アーキテクチャの単純化と学習戦略の強化が組み合わさって, より効率的かつ等しく機能的な作業モデルが得られることが示唆された。
論文参考訳（メタデータ） (2025-01-30T14:58:33Z)
High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文参考訳（メタデータ） (2024-09-29T06:46:31Z)
From Blurry to Brilliant Detection: YOLO-Based Aerial Object Detection with Super Resolution [3.5044007821404635]
空中物体検出は、小さな物体の大きさ、高密度クラスタリング、距離や動きのぼかしによる画質劣化などの課題を提示する。 B2BDetは、推論中にドメイン固有の超解像を適用し、拡張されたYOLOv5アーキテクチャを使って検出する2段階のフレームワークでこの問題に対処する。このアプローチは、航空最適化SRGAN微調整とEAM(Efficient Attention Module)やCLFPN(Cross-Layer Feature Pyramid Network)といったアーキテクチャ革新を組み合わせる。
論文参考訳（メタデータ） (2024-01-26T05:50:58Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
ACDMSR: Accelerated Conditional Diffusion Models for Single Image Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文参考訳（メタデータ） (2023-07-03T06:49:04Z)
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文参考訳（メタデータ） (2023-03-13T06:05:18Z)
Scale-aware Two-stage High Dynamic Range Imaging [13.587403084724015]
本稿では,高品質なゴーストフリー画像合成を実現するため,スケールアウェアな2段階ハイレンジイメージングフレームワーク(ST)を提案する。具体的には,機能アライメントと2段階融合からなるフレームワークについて述べる。特徴融合の第1段階では,ゴーストアーティファクトの少ない予備的な結果が得られる。第2段階では,提案したSTの有効性を,速度と品質の観点から検証する。
論文参考訳（メタデータ） (2023-03-12T05:17:24Z)
Semantically Accurate Super-Resolution Generative Adversarial Networks [2.0454959820861727]
セマンティックセグメンテーションの性能を高めるために,新しいアーキテクチャとドメイン固有の特徴損失を提案する。提案手法は,全ての予測クラスにおいて,知覚的画像品質と定量的セグメンテーションの精度を向上することを示す。この研究は、画像ベースとタスク固有の損失を共同で検討することにより、両者のパフォーマンスを向上し、空中画像のセマンティック・アウェア・スーパーレゾリューションにおける最先端の進歩を実証する。
論文参考訳（メタデータ） (2022-05-17T23:05:27Z)
Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。 DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文参考訳（メタデータ） (2022-01-04T08:30:09Z)
Research on Mosaic Image Data Enhancement for Overlapping Ship Targets [0.0]
改善されたモザイクデータ強化方法を提案し、データセットの読み取り方法を最適化する。改良されたアルゴリズムは、重なり合うターゲットの認識精度を2.5%改善し、目標損失時間を17%削減し、異なるビデオ解像度での認識安定性を27.01%向上させる。
論文参考訳（メタデータ） (2021-05-11T14:44:03Z)
Evaluating COPY-BLEND Augmentation for Low Level Vision Tasks [28.628939818365932]
ノイズの多い画像からパッチをコピーし、クリーンな画像にブレンドすることで、根本的なアルゴリズムが影響を受けた領域をローカライズして回復し、復元された画像の知覚品質を高めます。レポート: パフォーマンスの向上、トレーニングデータセットの要件の削減、低照度画像の強化、画像のデハージング、画像のデブレーションなどのタスクの早期収束など、ベースラインアルゴリズムを変更することなく。
論文参考訳（メタデータ） (2021-03-10T06:17:52Z)
Event Enhanced High-Quality Image Recovery [34.46486617222021]
本稿では,イベントカメラから高品質な画像を取り出すために,イベント強化スパース学習ネットワーク(eSL-Net)を提案する。合成データセットを用いてトレーニングした後、提案したeSL-Netは、最先端の性能を7～12dB向上させることができる。
論文参考訳（メタデータ） (2020-07-16T13:51:15Z)
Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文参考訳（メタデータ） (2020-03-02T13:28:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。