論文の概要: Quality-agnostic Image Captioning to Safely Assist People with Vision
Impairment
- arxiv url: http://arxiv.org/abs/2304.14623v2
- Date: Mon, 1 May 2023 07:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 10:33:20.006097
- Title: Quality-agnostic Image Captioning to Safely Assist People with Vision
Impairment
- Title(参考訳): 視覚障害者の安全支援のための品質非依存画像キャプション
- Authors: Lu Yu, Malvina Nikandrou, Jiali Jin, Verena Rieser
- Abstract要約: 本稿では、合成雑音を生成するためのデータ拡張手法が、この領域におけるデータの空間性にどのように対処できるかを示す。
第二に、最先端のモデルをデュアルネットワークアーキテクチャに拡張することにより、モデルの堅牢性を高める。
第3に,困難/雑音レベルの異なる画像に対して,信頼度校正による予測信頼性の評価を行った。
- 参考スコア(独自算出の注目度): 11.864465182761945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated image captioning has the potential to be a useful tool for people
with vision impairments. Images taken by this user group are often noisy, which
leads to incorrect and even unsafe model predictions. In this paper, we propose
a quality-agnostic framework to improve the performance and robustness of image
captioning models for visually impaired people. We address this problem from
three angles: data, model, and evaluation. First, we show how data augmentation
techniques for generating synthetic noise can address data sparsity in this
domain. Second, we enhance the robustness of the model by expanding a
state-of-the-art model to a dual network architecture, using the augmented data
and leveraging different consistency losses. Our results demonstrate increased
performance, e.g. an absolute improvement of 2.15 on CIDEr, compared to
state-of-the-art image captioning networks, as well as increased robustness to
noise with up to 3 points improvement on CIDEr in more noisy settings. Finally,
we evaluate the prediction reliability using confidence calibration on images
with different difficulty/noise levels, showing that our models perform more
reliably in safety-critical situations. The improved model is part of an
assisted living application, which we develop in partnership with the Royal
National Institute of Blind People.
- Abstract(参考訳): 視覚障害者にとって、自動キャプションは便利なツールになる可能性がある。
このユーザーグループによって撮影された画像は、しばしばうるさいので、誤った、さらには安全でないモデル予測につながる。
本稿では,視覚障害者のための画像キャプションモデルの性能とロバスト性を改善するための品質診断フレームワークを提案する。
データ、モデル、評価の3つの角度からこの問題に対処する。
まず,合成雑音生成のためのデータ拡張手法が,この領域におけるデータのスパーシティにどのように対処できるかを示す。
第2に,最先端のモデルをデュアルネットワークアーキテクチャに拡張し,拡張データを使用し,異なる一貫性損失を活用することで,モデルの堅牢性を高める。
その結果,最先端画像キャプションネットワークに比べ,ciderにおける2.15の絶対的改善や,ノイズに対する頑健性の向上,最大3点改善などの性能向上が示された。
最後に,難易度/雑音レベルの異なる画像に対する信頼度校正を用いた予測信頼性の評価を行い,本モデルが安全性クリティカルな状況においてより確実に動作することを示す。
改良されたモデルは、私たちが王立盲人研究所と共同で開発した補助的な生活用アプリケーションの一部である。
関連論文リスト
- Leveraging generative models to characterize the failure conditions of image classifiers [5.018156030818883]
我々は、ジェネレーティブ・ディバイサル・ネットワーク(StyleGAN2)が利用できる高品質画像データの制御可能な分布を生成する能力を活用する。
フェール条件は、生成モデル潜在空間における強い性能劣化の方向として表現される。
論文 参考訳(メタデータ) (2024-10-01T08:52:46Z) - Indoor scene recognition from images under visual corruptions [3.4861209026118836]
本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて,CNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討した。
本研究では,Places365データセットの破損したサブセットに対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-08-23T12:35:45Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in
Text-to-Image Generation [3.976813869450304]
色とコントラストの強化、複数アスペクト比での生成の改善、人中心の細部の改善に重点を置いている。
われわれのモデルはオープンソースであり、Playground v2.5の開発は、拡散型画像生成モデルの美的品質を高めることを目的とした研究者に貴重なガイドラインを提供することを期待している。
論文 参考訳(メタデータ) (2024-02-27T06:31:52Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Helping Visually Impaired People Take Better Quality Pictures [52.03016269364854]
我々は、視覚障害者が共通の技術的歪みの発生を最小限に抑えるためのツールを開発する。
また、ユーザによる品質問題の緩和を支援する、プロトタイプのフィードバックシステムも作成しています。
論文 参考訳(メタデータ) (2023-05-14T04:37:53Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Inducing Predictive Uncertainty Estimation for Face Recognition [102.58180557181643]
顔画像の「マッドペア」から画像品質訓練データを自動的に生成する手法を提案する。
生成したデータを用いて、顔画像の信頼度を推定するために、PCNetと呼ばれる軽量な予測信頼ネットワークを訓練する。
論文 参考訳(メタデータ) (2020-09-01T17:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。