論文の概要: A Thorough Review on Recent Deep Learning Methodologies for Image
Captioning
- arxiv url: http://arxiv.org/abs/2107.13114v1
- Date: Wed, 28 Jul 2021 00:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 23:49:07.757936
- Title: A Thorough Review on Recent Deep Learning Methodologies for Image
Captioning
- Title(参考訳): 画像キャプションのための最近の深層学習手法の概観
- Authors: Ahmed Elhagry, Karima Kadaoui
- Abstract要約: 画像キャプションの分野における最新の研究や発見に追随することはますます困難になっている。
本論文は,画像キャプション生成分野における最新のコントリビューションに追随する研究者のロードマップとして機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Captioning is a task that combines computer vision and natural language
processing, where it aims to generate descriptive legends for images. It is a
two-fold process relying on accurate image understanding and correct language
understanding both syntactically and semantically. It is becoming increasingly
difficult to keep up with the latest research and findings in the field of
image captioning due to the growing amount of knowledge available on the topic.
There is not, however, enough coverage of those findings in the available
review papers. We perform in this paper a run-through of the current
techniques, datasets, benchmarks and evaluation metrics used in image
captioning. The current research on the field is mostly focused on deep
learning-based methods, where attention mechanisms along with deep
reinforcement and adversarial learning appear to be in the forefront of this
research topic. In this paper, we review recent methodologies such as UpDown,
OSCAR, VIVO, Meta Learning and a model that uses conditional generative
adversarial nets. Although the GAN-based model achieves the highest score,
UpDown represents an important basis for image captioning and OSCAR and VIVO
are more useful as they use novel object captioning. This review paper serves
as a roadmap for researchers to keep up to date with the latest contributions
made in the field of image caption generation.
- Abstract(参考訳): Image Captioningは、コンピュータビジョンと自然言語処理を組み合わせたタスクであり、画像の記述的な伝説を生成することを目的としている。
正確な画像理解と、構文的にも意味的にも正確な言語理解に依存する2次元のプロセスである。
画像キャプションの分野における最新の研究や知見に追随することがますます難しくなってきている。
しかし、これらの発見の十分なカバレッジは、利用可能なレビュー論文にはない。
本稿では,画像キャプションにおける現在の手法,データセット,ベンチマーク,評価指標について概説する。
この分野の最近の研究は、主に深層学習に基づく手法に焦点を当てており、深層強化と逆境学習とともに注意のメカニズムがこの研究の最前線にあるように思われる。
本稿では,UpDown,OSCAR,VIVO,メタラーニングなどの最近の手法と,条件付き生成対向ネットを用いたモデルについて述べる。
GANベースのモデルが最も高いスコアを得るが、UpDownは画像キャプションの重要な基盤であり、OSCARとVIVOは、新しいオブジェクトキャプションを使用する場合により有用である。
このレビュー論文は、画像キャプション生成の分野における最新の貢献を最新に保つための、研究者のロードマップとして役立ちます。
関連論文リスト
- Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Recent Advances in Scene Image Representation and Classification [1.8369974607582584]
本稿では,画像分類に広く用いられている既存のシーン画像表現手法について概説する。
我々は、その性能を質的に(例えば、出力の品質、pros/consなど)、量的に(例えば、精度)比較する。
本稿では,従来のコンピュータビジョン(CV)ベースの手法,ディープラーニング(DL)ベースの手法,検索エンジン(SE)ベースの手法について,最近のシーン画像表現手法の詳細な知見と応用について述べる。
論文 参考訳(メタデータ) (2022-06-15T07:12:23Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Survey of Visual-Semantic Embedding Methods for Zero-Shot Image
Retrieval [0.6091702876917279]
本稿では,文をクエリとして用いたゼロショット画像検索に着目し,この分野の技術動向調査を行う。
私たちは、画像とテキストのマッチングの初期の研究の議論から始まる技術の歴史の包括的な概要を提供します。
実験で一般的に使用されるデータセットの記述と,各手法の評価結果の比較を行った。
論文 参考訳(メタデータ) (2021-05-16T09:43:25Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。