論文の概要: UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer
- arxiv url: http://arxiv.org/abs/2412.11836v1
- Date: Mon, 16 Dec 2024 14:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:43.111889
- Title: UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer
- Title(参考訳): UnMA-CapSumT:Unified and Multi-Head Attention-driven Caption Summarization Transformer
- Authors: Dhruv Sharma, Chhavi Dhiman, Dinesh Kumar,
- Abstract要約: 本稿では,Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) ベースのキャプションフレームワークを提案する。
修正適応注意に基づく実写画像キャプションモデル(MAA-FIC)とSF-Bi-ALSTM駆動のスタイル化画像キャプションモデル(SF-Bi-ALSTM)の両方を用いている。
- 参考スコア(独自算出の注目度): 6.351779356923131
- License:
- Abstract: Image captioning is the generation of natural language descriptions of images which have increased immense popularity in the recent past. With this different deep-learning techniques are devised for the development of factual and stylized image captioning models. Previous models focused more on the generation of factual and stylized captions separately providing more than one caption for a single image. The descriptions generated from these suffer from out-of-vocabulary and repetition issues. To the best of our knowledge, no such work exists that provided a description that integrates different captioning methods to describe the contents of an image with factual and stylized (romantic and humorous) elements. To overcome these limitations, this paper presents a novel Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) based Captioning Framework. It utilizes both factual captions and stylized captions generated by the Modified Adaptive Attention-based factual image captioning model (MAA-FIC) and Style Factored Bi-LSTM with attention (SF-Bi-ALSTM) driven stylized image captioning model respectively. SF-Bi-ALSTM-based stylized IC model generates two prominent styles of expression- {romance, and humor}. The proposed summarizer UnMHA-ST combines both factual and stylized descriptions of an input image to generate styled rich coherent summarized captions. The proposed UnMHA-ST transformer learns and summarizes different linguistic styles efficiently by incorporating proposed word embedding fastText with Attention Word Embedding (fTA-WE) and pointer-generator network with coverage mechanism concept to solve the out-of-vocabulary issues and repetition problem. Extensive experiments are conducted on Flickr8K and a subset of FlickrStyle10K with supporting ablation studies to prove the efficiency and efficacy of the proposed framework.
- Abstract(参考訳): 画像キャプション(英: Image Casting)は、近年急速に普及している画像の自然言語記述の生成である。
このような異なる深層学習技術は、実写およびスタイリングされた画像キャプションモデルの開発のために考案されている。
以前のモデルでは、1つの画像に複数のキャプションを別々に提供する事実とスタイルのキャプションの生成に焦点が当てられていた。
これらから生じた記述は語彙外および繰り返しの問題に悩まされる。
我々の知る限りでは、画像の内容を記述するための異なるキャプション手法を統合する記述を、事実的でスタイリングされた(ロマンチックでユーモラスな)要素で提供するような著作は存在しない。
これらの制約を克服するために,Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) ベースのCaptioning Frameworkを提案する。
修正適応注意に基づく実写画像キャプションモデル(MAA-FIC)とSF-Bi-ALSTM駆動のスタイル化画像キャプションモデル(SF-Bi-ALSTM)の両方を用いている。
SF-Bi-ALSTMをベースとしたスタイル化ICモデルは,2つの表現スタイル,すなわちロマンスとユーモアを生成する。
提案する要約器UnMHA-STは、入力画像の事実記述とスタイル記述の両方を組み合わせて、スタイル付きリッチコヒーレントな要約キャプションを生成する。
提案したUnMHA-STトランスフォーマーは,単語埋め込み高速テキスト(fTA-WE)とポインタージェネレータネットワークを包含することで,語彙外問題や繰り返し問題を解決することで,異なる言語スタイルを効率よく学習し,要約する。
Flickr8KとFlickrStyle10Kのサブセットで大規模な実験を行い、アブレーション研究を支援し、提案フレームワークの有効性と有効性を証明する。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。