論文の概要: It Isn't Sh!tposting, It's My CAT Posting
- arxiv url: http://arxiv.org/abs/2205.08710v1
- Date: Wed, 18 May 2022 04:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:15:41.957059
- Title: It Isn't Sh!tposting, It's My CAT Posting
- Title(参考訳): It is't Sh!
tposting、それは私のCATの投稿です
- Authors: Parthsarthi Rawat, Sayan Das, Jorge Aguirre, Akhil Daphara
- Abstract要約: 与えられた入力画像に対して、笑えるキャプションを生成できる新しいアーキテクチャについて述べる。
アーキテクチャは2つのハーフ、すなわち画像キャプションと笑えるテキスト変換に分けられる。
- 参考スコア(独自算出の注目度): 3.0108936184913295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe a novel architecture which can generate hilarious
captions for a given input image. The architecture is split into two halves,
i.e. image captioning and hilarious text conversion. The architecture starts
with a pre-trained CNN model, VGG16 in this implementation, and applies
attention LSTM on it to generate normal caption. These normal captions then are
fed forward to our hilarious text conversion transformer which converts this
text into something hilarious while maintaining the context of the input image.
The architecture can also be split into two halves and only the seq2seq
transformer can be used to generate hilarious caption by inputting a
sentence.This paper aims to help everyday user to be more lazy and hilarious at
the same time by generating captions using CATNet.
- Abstract(参考訳): 本稿では,与えられた入力画像に対して笑えるキャプションを生成できる新しいアーキテクチャについて述べる。
アーキテクチャは2つのハーフ、すなわち画像キャプションと笑えるテキスト変換に分けられる。
この実装では、事前訓練されたCNNモデルであるVGG16からアーキテクチャが始まり、通常のキャプションを生成するためにLSTMに注意を向ける。
これらの通常のキャプションは、入力画像のコンテキストを維持しながら、このテキストを笑えるものに変換する、笑えるテキスト変換変換器に転送されます。
本論文は,CATNet を用いて字幕を生成することで,日常の利用者がより怠慢で笑わしい字幕を同時に生成することを支援することを目的としている。
関連論文リスト
- A Simple Text to Video Model via Transformer [4.035107857147382]
本稿では,Transformerをベースとした汎用的でシンプルなテキストをビデオモデルに提示する。
テキストもビデオもシーケンシャルなデータなので、テキストも画像も同じ隠れ空間にエンコードします。
GPT2を使用して、UCF101データセット上でアプローチをテストし、有望なビデオを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-26T05:26:30Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning [8.944233327731245]
本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-10-01T11:57:50Z) - Optimizing Latency for Online Video CaptioningUsing Audio-Visual
Transformers [54.705393237822044]
本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。
オーディオ映像トランスフォーマーは、すべてのビデオフレームのごく一部だけを使用して、接地木字幕を生成するように訓練される。
CNNベースのタイミング検出器もトレーニングされ、適切な出力タイミングを検出し、2つのトランスフォーマーによって生成されたキャプションが十分に近接する。
論文 参考訳(メタデータ) (2021-08-04T16:20:00Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - Image Captioning through Image Transformer [29.91581534937757]
変形符号化変換器と暗黙復号変換器からなるtextbftextitimage transformer を導入する。
本モデルでは,MSCOCOのオフラインおよびオンラインテストベンチマークにおいて,最新の性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:30:57Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。