論文の概要: Neural Twins Talk
- arxiv url: http://arxiv.org/abs/2009.12524v1
- Date: Sat, 26 Sep 2020 06:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:53:02.672614
- Title: Neural Twins Talk
- Title(参考訳): ニューラルツインの講演
- Authors: Zanyar Zohourianshahzadi (UCCS) and Jugal Kumar Kalita (UCCS)
- Abstract要約: 本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by how the human brain employs more neural pathways when increasing
the focus on a subject, we introduce a novel twin cascaded attention model that
outperforms a state-of-the-art image captioning model that was originally
implemented using one channel of attention for the visual grounding task.
Visual grounding ensures the existence of words in the caption sentence that
are grounded into a particular region in the input image. After a deep learning
model is trained on visual grounding task, the model employs the learned
patterns regarding the visual grounding and the order of objects in the caption
sentences, when generating captions. We report the results of our experiments
in three image captioning tasks on the COCO dataset. The results are reported
using standard image captioning metrics to show the improvements achieved by
our model over the previous image captioning model. The results gathered from
our experiments suggest that employing more parallel attention pathways in a
deep neural network leads to higher performance. Our implementation of NTT is
publicly available at: https://github.com/zanyarz/NeuralTwinsTalk.
- Abstract(参考訳): 被験者に焦点をあてる際に、人間の脳がより神経経路をどう使うかに着想を得て、視覚的接地作業に1つの注意チャンネルを用いて実装された最先端の画像キャプションモデルよりも優れた、新しい双対の注意モデルを導入する。
視覚的な接地は、入力画像内の特定の領域に接地された字幕文中の単語の存在を保証する。
深層学習モデルが視覚的接地作業に基づいて訓練された後、そのモデルでは、字幕文中の視覚的接地とオブジェクトの順序に関する学習パターンを用いて、キャプションを生成する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
結果は標準画像キャプション指標を用いて報告され、従来の画像キャプションモデルと比較して、我々のモデルが達成した改善を示す。
実験から得られた結果は、より並列な注意経路をディープニューラルネットワークに導入することで、より高い性能が得られることを示唆している。
NTTの実装は、https://github.com/zanyarz/NeuralTwinsTalk.comで公開されています。
関連論文リスト
- Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Connecting What to Say With Where to Look by Modeling Human Attention
Traces [30.8226861256742]
画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-05-12T20:53:30Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。