論文の概要: Image Captioning with Attention for Smart Local Tourism using
EfficientNet
- arxiv url: http://arxiv.org/abs/2009.08899v1
- Date: Fri, 18 Sep 2020 15:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:13:36.827120
- Title: Image Captioning with Attention for Smart Local Tourism using
EfficientNet
- Title(参考訳): efficientnetを用いたスマート観光に配慮した画像キャプション
- Authors: Dhomas Hatta Fudholi, Yurio Windiatmoko, Nurdi Afrianto, Prastyo Eko
Susanto, Magfirah Suyuti, Ahmad Fathan Hidayatullah, Ridho Rahmadi
- Abstract要約: 我々は、地域観光特化画像キャプションのモデルを構築し、後にAIシステムの開発を支援する。
地域観光データセットが収集され、2種類のキャプションと共に研究に使用される。
開発したモデルを用いたキャプション結果は,地域観光関連画像の論理キャプションを生成できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Smart systems have been massively developed to help humans in various tasks.
Deep Learning technologies push even further in creating accurate assistant
systems due to the explosion of data lakes. One of the smart system tasks is to
disseminate users needed information. This is crucial in the tourism sector to
promote local tourism destinations. In this research, we design a model of
local tourism specific image captioning, which later will support the
development of AI-powered systems that assist various users. The model is
developed using a visual Attention mechanism and uses the state-of-the-art
feature extractor architecture EfficientNet. A local tourism dataset is
collected and is used in the research, along with two different kinds of
captions. Captions that describe the image literally and captions that
represent human logical responses when seeing the image. This is done to make
the captioning model more humane when implemented in the assistance system. We
compared the performance of two different models using EfficientNet
architectures (B0 and B4) with other well known VGG16 and InceptionV3. The best
BLEU scores we get are 73.39 and 24.51 for the training set and the validation
set respectively, using EfficientNetB0. The captioning result using the
developed model shows that the model can produce logical caption for local
tourism-related images
- Abstract(参考訳): スマートシステムは、さまざまなタスクで人間を助けるために大規模に開発された。
ディープラーニング技術は、データレイクの爆発により、正確なアシスタントシステムの構築をさらに進める。
スマートシステムタスクの1つは、ユーザに必要な情報を広めることです。
これは観光業において、地域観光の振興に不可欠である。
本研究では,地域観光特化画像キャプションのモデルを構築し,様々なユーザを支援するAIシステムの開発を支援する。
このモデルは視覚的注意機構を用いて開発され、最先端の機能抽出アーキテクチャであるEfficientNetを使用している。
地元の観光データセットが収集され、2種類のキャプションとともに研究に使用される。
イメージを文字通り記述するキャプションと、画像を見るときの人間の論理応答を表すキャプション。
これは、補助システムに実装されたキャプションモデルをより人間的にするために行われる。
EfficientNet アーキテクチャ (B0 と B4) と他のよく知られた VGG16 と InceptionV3 を比較した。
最高のBLEUスコアは、トレーニングセットと検証セットそれぞれ73.39と24.51で、EfficientNetB0を使用する。
開発したモデルを用いたキャプション結果から,地域観光関連画像の論理キャプションを生成できることが示された。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Automatic location detection based on deep learning [0.0]
本研究は,インドにおける都市画像の識別・分類に適した画像分類システムの詳細な研究と実装について述べる。
インドでは,Ahmedabad,Delhi,Kerala,Kolkata,Mumbaiの5都市に画像の分類を行った。
本研究は,観光,都市計画,さらにはリアルタイム位置情報システムへの応用の可能性を示すものである。
論文 参考訳(メタデータ) (2024-03-16T12:25:30Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文 参考訳(メタデータ) (2021-08-05T18:41:34Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。