論文の概要: On the Ability of a CNN to Realize Image-to-Image Language Conversion
- arxiv url: http://arxiv.org/abs/2006.12316v1
- Date: Mon, 22 Jun 2020 14:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:33:26.965530
- Title: On the Ability of a CNN to Realize Image-to-Image Language Conversion
- Title(参考訳): 画像間変換を実現するCNNの機能について
- Authors: Kohei Baba, Seiichi Uchida, Brian Kenji Iwana
- Abstract要約: 韓国のハングル文字の画像を音素のラテン文字と同等の画像に変換することで,この課題に対処する新しいネットワークを提案する。
提案するネットワークの結果から,画像から画像への変換が可能であることがわかった。
- 参考スコア(独自算出の注目度): 14.567067583556717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this paper is to reveal the ability that Convolutional Neural
Networks (CNN) have on the novel task of image-to-image language conversion. We
propose a new network to tackle this task by converting images of Korean Hangul
characters directly into images of the phonetic Latin character equivalent. The
conversion rules between Hangul and the phonetic symbols are not explicitly
provided. The results of the proposed network show that it is possible to
perform image-to-image language conversion. Moreover, it shows that it can
grasp the structural features of Hangul even from limited learning data. In
addition, it introduces a new network to use when the input and output have
significantly different features.
- Abstract(参考訳): 本研究の目的は,画像から画像への変換という新たな課題において,畳み込みニューラルネットワーク(CNN)が持つ能力を明らかにすることである。
韓国語ハングル文字の画像を直接音素ラテン文字のイメージに変換することで,この課題に取り組むための新たなネットワークを提案する。
ハングルと音韻記号の変換規則は明示的に規定されていない。
提案するネットワークの結果から,画像から画像への変換が可能であることがわかった。
さらに,限られた学習データからでも,Hangulの構造的特徴を把握できることが示唆された。
さらに、入力と出力が著しく異なる機能を持つ場合に使用する新しいネットワークも導入されている。
関連論文リスト
- Translating speech with just images [23.104041372055466]
既存の画像キャプションシステムを介して、画像とテキストをリンクすることで、この接続を拡張します。
このアプローチは、生成されたキャプションと異なる言語で音声を付加することにより、画像のみを用いた音声翻訳に使用できる。
実際の低リソース言語であるYorub'aについて検討し、Yorub'a-to- English 音声翻訳モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:29:24Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - Bangla sign language recognition using concatenated BdSL network [0.0]
CNNに基づく画像ネットワークとポーズ推定ネットワークで構成される「連結BdSLネットワーク」を提案する。
テストセットにおける新しい手法により, 91.51%のスコアが得られ, 追加のポーズ推定ネットワークの有効性が示唆された。
論文 参考訳(メタデータ) (2021-07-25T14:47:30Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。