論文の概要: Generating Descriptions for Sequential Images with Local-Object
Attention and Global Semantic Context Modelling
- arxiv url: http://arxiv.org/abs/2012.01295v1
- Date: Wed, 2 Dec 2020 16:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:13:29.697728
- Title: Generating Descriptions for Sequential Images with Local-Object
Attention and Global Semantic Context Modelling
- Title(参考訳): 局所対象注目とグローバル意味文脈モデリングを用いた逐次画像記述の生成
- Authors: Jing Su, Chenghua Lin, Mian Zhou, Qingyun Dai, Haoyu Lv
- Abstract要約: 本稿では,局所オブジェクトアテンション機構を持つシーケンシャル画像の記述を生成するために,エンドツーエンドのCNN-LSTMモデルを提案する。
シーケンシャルな画像間の依存関係を学習する多層パーセプトロンを用いて,グローバルな意味コンテキストをキャプチャする。
並列LSTMネットワークを用いてシーケンス記述を復号する。
- 参考スコア(独自算出の注目度): 5.362051433497476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an end-to-end CNN-LSTM model for generating
descriptions for sequential images with a local-object attention mechanism. To
generate coherent descriptions, we capture global semantic context using a
multi-layer perceptron, which learns the dependencies between sequential
images. A paralleled LSTM network is exploited for decoding the sequence
descriptions. Experimental results show that our model outperforms the baseline
across three different evaluation metrics on the datasets published by
Microsoft.
- Abstract(参考訳): 本稿では,局所オブジェクトアテンション機構を持つシーケンシャル画像の記述を生成するために,エンドツーエンドのCNN-LSTMモデルを提案する。
コヒーレントな記述を生成するために、シーケンシャルイメージ間の依存関係を学習する多層パーセプトロンを用いて、グローバルセマンティックコンテキストをキャプチャする。
並列LSTMネットワークを用いてシーケンス記述を復号する。
実験の結果,我々のモデルは,Microsoftが公開したデータセットの3つの評価指標において,ベースラインよりも優れていた。
関連論文リスト
- RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Towards Local Visual Modeling for Image Captioning [87.02744388237045]
そこで我々はLSTNet(Locality-Sensitive Transformer Network)とLSA(Locality-Sensitive Attention)とLSF(Locality-Sensitive Fusion)の2つの新しい設計を提案する。
LSAはトランスフォーマー内の層間相互作用のために、各格子とその近傍の関係をモデル化して展開される。
LSFは層間情報融合に使われ、層間セマンティック補完のために異なるエンコーダ層の情報を集約する。
論文 参考訳(メタデータ) (2023-02-13T04:42:00Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling [6.196023076311228]
文レベルと単語レベルのセマンティクスを別々にモデル化する新しい階層型ビジュアルストーリーテリングフレームワークを提案する。
次に、階層型LSTMネットワークを用いて、下位LSTMはBERTからの文ベクトル表現を入力として受け取り、画像に対応する文間の依存関係を学習し、上位LSTMは対応する単語ベクトル表現を生成する。
実験の結果,我々のモデルはBLEUとCIDErの自動評価基準において,最も密接に関連するベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-12-03T18:07:28Z) - Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。
提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-10T20:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。