論文の概要: Efficient Urdu Caption Generation using Attention based LSTM
- arxiv url: http://arxiv.org/abs/2008.01663v4
- Date: Sat, 19 Jun 2021 15:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:20:02.253282
- Title: Efficient Urdu Caption Generation using Attention based LSTM
- Title(参考訳): 注意に基づくLSTMを用いた効率的なUrduキャプション生成
- Authors: Inaam Ilahi, Hafiz Muhammad Abdullah Zia, Muhammad Ahtazaz Ahsan, Rauf
Tabassam, Armaghan Ahmed
- Abstract要約: ウルドゥー語はパキスタンの国語であり、パキスタン・インド亜大陸地域で話され、理解されている。
我々は、ウルドゥー語に特化したシーケンスモデリング技術を用いて、注意に基づくディープラーニングモデルを開発する。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in deep learning have created many opportunities to solve
real-world problems that remained unsolved for more than a decade. Automatic
caption generation is a major research field, and the research community has
done a lot of work on it in most common languages like English. Urdu is the
national language of Pakistan and also much spoken and understood in the
sub-continent region of Pakistan-India, and yet no work has been done for Urdu
language caption generation. Our research aims to fill this gap by developing
an attention-based deep learning model using techniques of sequence modeling
specialized for the Urdu language. We have prepared a dataset in the Urdu
language by translating a subset of the "Flickr8k" dataset containing 700 'man'
images. We evaluate our proposed technique on this dataset and show that it can
achieve a BLEU score of 0.83 in the Urdu language. We improve on the previous
state-of-the-art by using better CNN architectures and optimization techniques.
Furthermore, we provide a discussion on how the generated captions can be made
correct grammar-wise.
- Abstract(参考訳): 近年のディープラーニングの進歩は、10年以上未解決のままの現実世界の問題を解決する多くの機会を生み出している。
自動キャプション生成は主要な研究分野であり、研究コミュニティは英語のような一般的な言語で多くの研究を行っている。
ウルドゥー語はパキスタンの国語であり、パキスタン・インド地方で多く話され、理解されているが、ウルドゥー語の字幕生成のための作業は行われていない。
本研究は,ウルドゥー語に特化したシーケンスモデリング手法を用いて,注意に基づくディープラーニングモデルを構築することで,このギャップを埋めることを目的としている。
我々は700の'man'イメージを含む"Flickr8k"データセットのサブセットを翻訳することで、Urdu言語でデータセットを準備した。
提案手法をこのデータセット上で評価し,ウルドゥー語のBLEUスコア0.83を達成可能であることを示す。
我々は,より優れたCNNアーキテクチャと最適化技術を用いて,従来の最先端技術を改善した。
さらに,生成した字幕が文法的にどのように正しいかについて議論する。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Tamil-Llama: A New Tamil Language Model Based on Llama 2 [6.449795539095749]
本稿では,タミル語における優れたテキスト生成と理解の実現を目的として,16,000個のタミルトークンを付加したオープンソースのLLaMAモデルを改良する。
我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。
以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語における大規模言語モデルの視野が拡大する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-10T03:02:39Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:54:21Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Co-occurrences using Fasttext embeddings for word similarity tasks in
Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。
fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。
これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文 参考訳(メタデータ) (2021-02-22T12:56:26Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。