論文の概要: Deep Learning Approaches on Image Captioning: A Review
- arxiv url: http://arxiv.org/abs/2201.12944v5
- Date: Tue, 22 Aug 2023 17:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:38:20.925044
- Title: Deep Learning Approaches on Image Captioning: A Review
- Title(参考訳): 画像キャプションにおけるディープラーニングのアプローチ
- Authors: Taraneh Ghandi and Hamidreza Pourreza and Hamidreza Mahyar
- Abstract要約: 画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
- 参考スコア(独自算出の注目度): 0.5852077003870417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is a research area of immense importance, aiming to generate
natural language descriptions for visual content in the form of still images.
The advent of deep learning and more recently vision-language pre-training
techniques has revolutionized the field, leading to more sophisticated methods
and improved performance. In this survey paper, we provide a structured review
of deep learning methods in image captioning by presenting a comprehensive
taxonomy and discussing each method category in detail. Additionally, we
examine the datasets commonly employed in image captioning research, as well as
the evaluation metrics used to assess the performance of different captioning
models. We address the challenges faced in this field by emphasizing issues
such as object hallucination, missing context, illumination conditions,
contextual understanding, and referring expressions. We rank different deep
learning methods' performance according to widely used evaluation metrics,
giving insight into the current state of the art. Furthermore, we identify
several potential future directions for research in this area, which include
tackling the information misalignment problem between image and text
modalities, mitigating dataset bias, incorporating vision-language pre-training
methods to enhance caption generation, and developing improved evaluation tools
to accurately measure the quality of image captions.
- Abstract(参考訳): 画像キャプションは重要な研究領域であり、静止画像の形で視覚的内容の自然言語記述を生成することを目的としている。
ディープラーニングの出現と、最近では視覚言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法とパフォーマンスの向上につながった。
本稿では,画像キャプションにおける深層学習法について,包括的分類法を提示し,各手法のカテゴリを詳細に検討し,構造化したレビューを行う。
さらに、画像キャプション研究によく用いられるデータセットと、異なるキャプティングモデルの性能を評価するために使用される評価指標について検討する。
本稿では,対象の幻覚,不足した文脈,照明条件,文脈理解,参照表現などの問題を強調することで,この分野で直面する課題に対処する。
さまざまなディープラーニング手法のパフォーマンスを,広く使用されている評価指標に基づいてランク付けし,その技術の現状について考察した。
さらに,画像とテキスト間の情報ミスアライメント問題への取り組み,データセットバイアスの軽減,キャプション生成のための視覚言語事前学習手法の導入,画像キャプションの品質を正確に測定するための評価ツールの改善など,この分野における研究の今後の方向性を明らかにした。
関連論文リスト
- Vision Language Model-based Caption Evaluation Method Leveraging Visual
Context Extraction [27.00018283430169]
本稿では視覚言語モデルに基づくキャプション評価手法VisCE$2$を提案する。
本手法は,オブジェクト,属性,関係性を含む画像の詳細な内容を参照する視覚的コンテキストに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-28T01:29:36Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - A Thorough Review on Recent Deep Learning Methodologies for Image
Captioning [0.0]
画像キャプションの分野における最新の研究や発見に追随することはますます困難になっている。
本論文は,画像キャプション生成分野における最新のコントリビューションに追随する研究者のロードマップとして機能する。
論文 参考訳(メタデータ) (2021-07-28T00:54:59Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。