論文の概要: ParaCNN: Visual Paragraph Generation via Adversarial Twin Contextual
CNNs
- arxiv url: http://arxiv.org/abs/2004.10258v1
- Date: Tue, 21 Apr 2020 19:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:15:17.313798
- Title: ParaCNN: Visual Paragraph Generation via Adversarial Twin Contextual
CNNs
- Title(参考訳): ParaCNN: 逆双対文脈CNNによるビジュアルパラグラフ生成
- Authors: Shiyang Yan, Yang Hua, Neil Robertson
- Abstract要約: 視覚的段落生成について検討し,より詳細な画像を含む長い段落の画像を記述した。
従来の研究では、階層的リカレントニューラルネットワーク(RNN)のようなモデルを用いて、この項を生成することが多かった。
階層型CNNアーキテクチャを用いた視覚的段落を生成するために,新しい純粋CNNモデルであるParaCNNを提案する。
- 参考スコア(独自算出の注目度): 21.070371571067348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image description generation plays an important role in many real-world
applications, such as image retrieval, automatic navigation, and disabled
people support. A well-developed task of image description generation is image
captioning, which usually generates a short captioning sentence and thus
neglects many of fine-grained properties, e.g., the information of subtle
objects and their relationships. In this paper, we study the visual paragraph
generation, which can describe the image with a long paragraph containing rich
details. Previous research often generates the paragraph via a hierarchical
Recurrent Neural Network (RNN)-like model, which has complex memorising,
forgetting and coupling mechanism. Instead, we propose a novel pure CNN model,
ParaCNN, to generate visual paragraph using hierarchical CNN architecture with
contextual information between sentences within one paragraph. The ParaCNN can
generate an arbitrary length of a paragraph, which is more applicable in many
real-world applications. Furthermore, to enable the ParaCNN to model paragraph
comprehensively, we also propose an adversarial twin net training scheme.
During training, we force the forwarding network's hidden features to be close
to that of the backwards network by using adversarial training. During testing,
we only use the forwarding network, which already includes the knowledge of the
backwards network, to generate a paragraph. We conduct extensive experiments on
the Stanford Visual Paragraph dataset and achieve state-of-the-art performance.
- Abstract(参考訳): 画像記述生成は、画像検索、自動ナビゲーション、障害者支援など、現実世界の多くのアプリケーションにおいて重要な役割を果たす。
画像記述生成のタスクは画像キャプションであり、通常は短いキャプション文を生成するため、微妙なオブジェクトの情報やそれらの関係などの細かな特性の多くを無視する。
本稿では,豊富な詳細を含む長い段落で画像を記述する視覚的段落生成について検討する。
従来の研究では、複雑な記憶、忘れ、結合機構を持つ階層的リカレントニューラルネットワーク(RNN)のようなモデルを用いて、しばしば項を生成する。
そこで我々は,文間の文脈情報を用いた階層型CNNアーキテクチャを用いて,新しい純粋CNNモデルであるParaCNNを提案する。
ParaCNNは段落の任意の長さを生成できるが、これは多くの現実世界の応用に応用できる。
さらに,パラcnn を包括的にモデル化できるようにするため,対向的ツインネットトレーニングスキームを提案する。
トレーニング中,私たちは,フォワードネットワークの隠れた特徴を,敵対的トレーニングを用いて後方ネットワークに近づけるように強制する。
テスト中は,すでに後方ネットワークの知識を含むフォワードネットワークのみを使用して段落を生成する。
スタンフォードの視覚パラグラフデータセットを広範囲に実験し,最先端のパフォーマンスを実現する。
関連論文リスト
- Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - CapsNet for Medical Image Segmentation [8.612958742534673]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおけるタスクの解決に成功している。
CNNは回転とアフィン変換に敏感であり、その成功は巨大なラベル付きデータセットに依存している。
CapsNetは、表現学習においてより堅牢性を達成した新しいアーキテクチャである。
論文 参考訳(メタデータ) (2022-03-16T21:15:07Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Defending Adversarial Examples via DNN Bottleneck Reinforcement [20.08619981108837]
本稿では,敵対的攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を軽減するための強化手法を提案する。
後者を維持しながら前者を補強することにより、逆らうか否かに関わらず、冗長な情報は、潜在表現から取り除かなければならない。
情報ボトルネックを強化するために,ネットワークの周波数ステアリングを改善するために,マルチスケールの低域目標とマルチスケールの高周波通信を導入する。
論文 参考訳(メタデータ) (2020-08-12T11:02:01Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。