論文の概要: Hyperparameter Analysis for Image Captioning
- arxiv url: http://arxiv.org/abs/2006.10923v1
- Date: Fri, 19 Jun 2020 01:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:04:38.313100
- Title: Hyperparameter Analysis for Image Captioning
- Title(参考訳): 画像キャプションのためのハイパーパラメータ解析
- Authors: Amish Patel and Aravind Varier
- Abstract要約: 我々は,CNN+LSTMとCNN+Transformerの2つのアーキテクチャを用いて,最先端画像キャプション手法の詳細な感度解析を行う。
実験で最大の利点は、CNNエンコーダの微調整がベースラインを上回っていることだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we perform a thorough sensitivity analysis on state-of-the-art
image captioning approaches using two different architectures: CNN+LSTM and
CNN+Transformer. Experiments were carried out using the Flickr8k dataset. The
biggest takeaway from the experiments is that fine-tuning the CNN encoder
outperforms the baseline and all other experiments carried out for both
architectures.
- Abstract(参考訳): 本稿では,CNN+LSTMとCNN+Transformerの2つのアーキテクチャを用いて,最先端画像キャプション手法の感度解析を行う。
Flickr8kデータセットを用いて実験を行った。
実験で得られた最大の点は、cnnエンコーダの微調整がベースラインや他の両方のアーキテクチャで行った実験よりも優れていることである。
関連論文リスト
- Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid
Algorithm with Transformer and CNN Encoders [0.2353157426758003]
顕微鏡画像上で事前学習したTransformerモデルとCNNモデルのセグメンテーション性能を、自然画像上で事前学習したモデルと比較する。
また,画像セグメンテーションにおいて,事前学習したトランスフォーマーとCNNエンコーダの組み合わせは,事前学習したCNNエンコーダ単独よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-26T16:56:15Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Revealing Similar Semantics Inside CNNs: An Interpretable Concept-based
Comparison of Feature Spaces [0.0]
安全に重要なアプリケーションは、人工知能コンポーネントの透明性を必要とする。
認識タスクに広く使用される畳み込みニューラルネットワーク(CNN)は、固有の解釈可能性に欠ける。
CNN潜在空間内の意味情報間の階層的類似性を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-04-30T13:53:39Z) - Classification of diffraction patterns using a convolutional neural
network in single particle imaging experiments performed at X-ray
free-electron lasers [53.65540150901678]
X線自由電子レーザー(XFEL)における単一粒子イメージング(SPI)は、その自然環境における粒子の3次元構造を決定するのに特に適している。
再建を成功させるためには、単一のヒットに由来する回折パターンを多数の取得パターンから分離する必要がある。
本稿では,この課題を画像分類問題として定式化し,畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて解決することを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:03:14Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Combining pretrained CNN feature extractors to enhance clustering of
complex natural images [27.784346095205358]
本稿では,画像クラスタリング(IC)における事前学習CNN機能の利用に関する知見を提供することを目的とする。
そこで本研究では,IC問題をマルチビュークラスタリング(MVC)問題として再構成することを提案する。
次に、MVC問題を効果的に解くためにエンドツーエンドに訓練されたマルチインプットニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-01-07T21:23:04Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。