論文の概要: Nepali Video Captioning using CNN-RNN Architecture
- arxiv url: http://arxiv.org/abs/2311.02699v1
- Date: Sun, 5 Nov 2023 16:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:15:42.342038
- Title: Nepali Video Captioning using CNN-RNN Architecture
- Title(参考訳): CNN-RNNアーキテクチャによるネパールの動画キャプション
- Authors: Bipesh Subedi, Saugat Singh, Bal Krishna Bal
- Abstract要約: 本稿では,ディープニューラルネットワークを用いたネパールの動画キャプションについて述べる。
この研究は、事前訓練されたCNNとRNNの統合を通じて、ネパールの動画の正確で文脈的に関係のあるキャプションを生成することに焦点を当てている。
このアプローチには、データセットの収集、データ前処理、モデル実装、評価が含まれる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article presents a study on Nepali video captioning using deep neural
networks. Through the integration of pre-trained CNNs and RNNs, the research
focuses on generating precise and contextually relevant captions for Nepali
videos. The approach involves dataset collection, data preprocessing, model
implementation, and evaluation. By enriching the MSVD dataset with Nepali
captions via Google Translate, the study trains various CNN-RNN architectures.
The research explores the effectiveness of CNNs (e.g., EfficientNetB0,
ResNet101, VGG16) paired with different RNN decoders like LSTM, GRU, and
BiLSTM. Evaluation involves BLEU and METEOR metrics, with the best model being
EfficientNetB0 + BiLSTM with 1024 hidden dimensions, achieving a BLEU-4 score
of 17 and METEOR score of 46. The article also outlines challenges and future
directions for advancing Nepali video captioning, offering a crucial resource
for further research in this area.
- Abstract(参考訳): 本稿では,ディープニューラルネットワークを用いたネパール語ビデオキャプションについて述べる。
事前訓練されたcnnとrnnの統合を通じて、この研究はネパールの動画に正確かつ文脈的に関連するキャプションを生成することに焦点を当てている。
このアプローチにはデータセット収集、データ前処理、モデル実装、評価が含まれる。
この研究は、MSVDデータセットとネパール語の字幕をGoogle Translate経由で強化することで、さまざまなCNN-RNNアーキテクチャをトレーニングする。
この研究では、LSTM、GRU、BiLSTMといった異なるRNNデコーダと組み合わせたCNN(例えば、EfficientNetB0、ResNet101、VGG16)の有効性について検討している。
評価にはBLEUとMETEORのメトリクスが含まれており、最良のモデルは1024の隠れ次元を持つ効率的なNetB0 + BiLSTMであり、BLEU-4スコアは17、METEORスコアは46である。
この記事はまた、ネパールの動画キャプションの進歩に関する課題と今後の方向性を概説し、この分野におけるさらなる研究のための重要なリソースを提供している。
関連論文リスト
- Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet [0.0]
本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
文字誤り率(CER)は17.06パーセントに達している。
論文 参考訳(メタデータ) (2024-06-25T12:14:01Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A
Natural Language Processing Approach [0.228438857884398]
本研究では,Weiboの119,988ツイートのデータセット上で,畳み込みニューラルネットワーク(CNN)を用いた感情分析の複雑な課題に対処する。
CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。
このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。
論文 参考訳(メタデータ) (2023-07-13T03:02:56Z) - Testing the Channels of Convolutional Neural Networks [8.927538538637783]
畳み込みニューラルネットワーク(CNN)のチャネルをテストする手法を提案する。
GANの拡張であるFtGANを設計し、ターゲットCNNのチャネルの強度を変化させてテストデータを生成する。
また,テストのための代表的なチャネルを見つけるためのチャネル選択アルゴリズムも提案した。
論文 参考訳(メタデータ) (2023-03-06T09:58:39Z) - N-Omniglot: a Large-scale Neuromorphic Dataset for Spatio-Temporal
Sparse Few-shot Learning [10.812738608234321]
我々は、Dynamic Vision Sensor (DVS)を用いて、最初のニューロモルフィックデータセット、N-Omniglotを提供する。
1623種類の手書き文字が含まれており、クラスごとに20のサンプルしか持たない。
このデータセットは、数ショットの学習領域でSNNアルゴリズムを開発するための強力なチャレンジと適切なベンチマークを提供する。
論文 参考訳(メタデータ) (2021-12-25T12:41:34Z) - GNN-LM: Language Modeling based on Global Contexts via GNN [32.52117529283929]
GNN-LMは、トレーニングコーパス全体において、同様のコンテキストを参照できるようにすることで、バニラニューラル言語モデル(LM)を拡張します。
GNN-LMはWikiText-103で14.8の最先端のパープレクシリティを実現している。
論文 参考訳(メタデータ) (2021-10-17T07:18:21Z) - Training Graph Neural Networks with 1000 Layers [133.84813995275988]
我々は、GNNのメモリとパラメータ効率を向上させるために、可逆接続、グループ畳み込み、重み付け、平衡モデルについて検討する。
我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。
論文 参考訳(メタデータ) (2021-06-14T15:03:00Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。