論文の概要: Hyperparameter Analysis for Image Captioning
- arxiv url: http://arxiv.org/abs/2006.10923v1
- Date: Fri, 19 Jun 2020 01:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:04:38.313100
- Title: Hyperparameter Analysis for Image Captioning
- Title(参考訳): 画像キャプションのためのハイパーパラメータ解析
- Authors: Amish Patel and Aravind Varier
- Abstract要約: 我々は,CNN+LSTMとCNN+Transformerの2つのアーキテクチャを用いて,最先端画像キャプション手法の詳細な感度解析を行う。
実験で最大の利点は、CNNエンコーダの微調整がベースラインを上回っていることだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we perform a thorough sensitivity analysis on state-of-the-art
image captioning approaches using two different architectures: CNN+LSTM and
CNN+Transformer. Experiments were carried out using the Flickr8k dataset. The
biggest takeaway from the experiments is that fine-tuning the CNN encoder
outperforms the baseline and all other experiments carried out for both
architectures.
- Abstract(参考訳): 本稿では,CNN+LSTMとCNN+Transformerの2つのアーキテクチャを用いて,最先端画像キャプション手法の感度解析を行う。
Flickr8kデータセットを用いて実験を行った。
実験で得られた最大の点は、cnnエンコーダの微調整がベースラインや他の両方のアーキテクチャで行った実験よりも優れていることである。
関連論文リスト
- An evaluation of CNN models and data augmentation techniques in hierarchical localization of mobile robots [0.0]
本研究では,移動ロボットの階層的位置決めを行うために,CNNモデルの評価とデータ拡張を行う。
この意味では、バックボーンとして使用される様々な最先端CNNモデルのアブレーション研究を示す。
ロボットの視覚的ローカライゼーションに対処するために,様々なデータ拡張視覚効果を提案する。
論文 参考訳(メタデータ) (2024-07-15T10:20:00Z) - Understanding and Improving CNNs with Complex Structure Tensor: A Biometrics Study [47.03015281370405]
本研究では,コンパクトな配向特徴を持つ複合構造を用いることで,グレースケール入力のみを使用する場合と比較して,識別精度が向上することを示す。
このことは、哺乳類の視界で見られる戦略であるCNNにおける配向機能の事前利用が、それらの制限を緩和するだけでなく、その説明可能性や細い自転車との関連性を高めることを示唆している。
論文 参考訳(メタデータ) (2024-04-24T02:51:13Z) - Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid
Algorithm with Transformer and CNN Encoders [0.2353157426758003]
顕微鏡画像上で事前学習したTransformerモデルとCNNモデルのセグメンテーション性能を、自然画像上で事前学習したモデルと比較する。
また,画像セグメンテーションにおいて,事前学習したトランスフォーマーとCNNエンコーダの組み合わせは,事前学習したCNNエンコーダ単独よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-26T16:56:15Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Classification of diffraction patterns using a convolutional neural
network in single particle imaging experiments performed at X-ray
free-electron lasers [53.65540150901678]
X線自由電子レーザー(XFEL)における単一粒子イメージング(SPI)は、その自然環境における粒子の3次元構造を決定するのに特に適している。
再建を成功させるためには、単一のヒットに由来する回折パターンを多数の取得パターンから分離する必要がある。
本稿では,この課題を画像分類問題として定式化し,畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて解決することを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:03:14Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Combining pretrained CNN feature extractors to enhance clustering of
complex natural images [27.784346095205358]
本稿では,画像クラスタリング(IC)における事前学習CNN機能の利用に関する知見を提供することを目的とする。
そこで本研究では,IC問題をマルチビュークラスタリング(MVC)問題として再構成することを提案する。
次に、MVC問題を効果的に解くためにエンドツーエンドに訓練されたマルチインプットニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-01-07T21:23:04Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。