論文の概要: Uncertainty-Aware Image Captioning
- arxiv url: http://arxiv.org/abs/2211.16769v1
- Date: Wed, 30 Nov 2022 06:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:08:08.441007
- Title: Uncertainty-Aware Image Captioning
- Title(参考訳): 不確実性認識画像キャプション
- Authors: Zhengcong Fei, Mingyuan Fan, Li Zhu, Junshi Huang, Xiaoming Wei,
Xiaolin Wei
- Abstract要約: 本稿では不確実性を考慮した画像キャプションフレームワークを提案する。
画像条件付きバッグ・オブ・ワードモデルを用いて単語の不確実性を測定する。
提案手法は,キャプション品質とデコード速度の両面において,強力なベースラインおよび関連手法より優れている。
- 参考スコア(独自算出の注目度): 40.984969950016236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well believed that the higher uncertainty in a word of the caption, the
more inter-correlated context information is required to determine it. However,
current image captioning methods usually consider the generation of all words
in a sentence sequentially and equally. In this paper, we propose an
uncertainty-aware image captioning framework, which parallelly and iteratively
operates insertion of discontinuous candidate words between existing words from
easy to difficult until converged. We hypothesize that high-uncertainty words
in a sentence need more prior information to make a correct decision and should
be produced at a later stage. The resulting non-autoregressive hierarchy makes
the caption generation explainable and intuitive. Specifically, we utilize an
image-conditioned bag-of-word model to measure the word uncertainty and apply a
dynamic programming algorithm to construct the training pairs. During
inference, we devise an uncertainty-adaptive parallel beam search technique
that yields an empirically logarithmic time complexity. Extensive experiments
on the MS COCO benchmark reveal that our approach outperforms the strong
baseline and related methods on both captioning quality as well as decoding
speed.
- Abstract(参考訳): キャプションの語中の不確実性が高ければ高いほど、それを決定するには関連性のある文脈情報が必要であるとよく信じられている。
しかし、現在の画像キャプション手法では、文中のすべての単語を逐次かつ等しく生成することが一般的である。
本稿では,既存の単語間の不連続候補単語の挿入を,易易度から難易度まで並列かつ反復的に行う不確実性対応画像キャプションフレームワークを提案する。
適切な判断を行うには、文中の不確定な単語がより事前情報を必要とすると仮定し、後段で生成すべきである。
結果として生じる非自己回帰階層は、キャプション生成を説明可能かつ直感的にする。
具体的には、画像条件付きバッグ・オブ・ワードモデルを用いて単語の不確実性を測定し、動的プログラミングアルゴリズムを用いてトレーニングペアを構築する。
推論中、実験的な対数時間複雑性をもたらす不確実性適応並列ビーム探索手法を考案した。
MS COCOベンチマークの大規模な実験により,提案手法はキャプション品質とデコード速度の両方において,強いベースラインと関連する手法よりも優れていることがわかった。
関連論文リスト
- Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。
本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。
実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文 参考訳(メタデータ) (2024-11-25T15:40:47Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Automatic Vocabulary and Graph Verification for Accurate Loop Closure
Detection [21.862978912891677]
Bag-of-Words (BoW)は、機能と関連付け、ループを検出する視覚語彙を構築する。
本稿では,ノードの半径と特徴記述子のドリフトを比較することで,自然な収束基準を提案する。
本稿では,候補ループの検証のための新しいトポロジカルグラフ検証手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T13:19:33Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - DeepSim: Semantic similarity metrics for learned image registration [6.789370732159177]
画像登録のための意味的類似度尺度を提案する。
提案手法は,学習ベース登録モデルの最適化を促進する,データセット固有の特徴を学習する。
論文 参考訳(メタデータ) (2020-11-11T12:35:07Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。