論文の概要: Using Deep Learning to Generate Semantically Correct Hindi Captions
- arxiv url: http://arxiv.org/abs/2602.13352v1
- Date: Fri, 13 Feb 2026 05:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.941217
- Title: Using Deep Learning to Generate Semantically Correct Hindi Captions
- Title(参考訳): 深層学習を用いた直感的なヒンディー語字幕生成
- Authors: Wasim Akram Khan, Anil Kumar Vuppala,
- Abstract要約: 本研究は、画像キャプションをヒンディー語に翻訳する際、異なるモデルを利用する。
VGG16、ResNet50、Inception V3のような事前訓練されたCNNは、画像特性の検索に役立った。
実験により、ヒンディー語で意味論的に正確な画像キャプションを生成できる研究能力が結論付けられた。
- 参考スコア(独自算出の注目度): 5.723697351415205
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automated image captioning using the content from the image is very appealing when done by harnessing the capability of computer vision and natural language processing. Extensive research has been done in the field with a major focus on the English language which gives the scope for further developments in the same with consideration of popular foreign languages. This research utilizes distinct models for translating the image caption into Hindi, the fourth most popular language across the world. Exploring the multi-modal architectures this research comprises local visual features, global visual features, attention mechanisms, and pre-trained models. Using google cloud translator on the image dataset from Flickr8k, Hindi image descriptions have been generated. Pre-trained CNNs like VGG16, ResNet50, and Inception V3 helped in retrieving image characteristics, while the uni-directional and bi-directional techniques of text encoding are used for the text encoding process. An additional Attention layer helps to generate a weight vector and, by multiplying it, combine image characteristics from each time step into a sentence-level feature vector. Bilingual evaluation understudy scores are used to compare the research outcome. Many experiments that serve as a baseline are done for the comparative analysis of the research. An image with a score of BLEU-1 is considered sufficient, whereas one with a score of BLEU-4 is considered to have fluid image captioning. For both BLEU scores, the attention-based bidirectional LSTM with VGG16 produced the best results of 0.59 and 0.19 respectively. The experiments conclude that researchs ability to produce relevant, semantically accurate image captions in Hindi. The research accomplishes the goals and future research can be guided by this research model.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の能力を活用することにより、画像からのコンテンツを用いた自動キャプションが極めて魅力的である。
この分野では、英語に大きな焦点をあてた大規模な研究が行われており、人気のある外国語を考慮に入れたさらなる発展のスコープが与えられている。
この研究は、画像キャプションをヒンディー語に翻訳する際、異なるモデルを用いており、これは世界で4番目に人気のある言語である。
この研究は、局所的な視覚的特徴、グローバルな視覚的特徴、注意機構、事前訓練されたモデルを含むマルチモーダルアーキテクチャを探索する。
Flickr8kの画像データセット上のGoogleクラウドトランスレータを使用して、ヒンディー語による画像記述が生成されている。
VGG16、ResNet50、Inception V3のような事前訓練されたCNNは画像の特徴の検索に役立ち、テキストエンコーディングの単方向および双方向技術はテキストエンコーディングプロセスに使われた。
追加のアテンション層はウェイトベクトルの生成を支援し、それを乗算することで、各タイムステップの画像特性を文レベルの特徴ベクトルに結合する。
両言語評価のアンダースタディスコアは、研究結果を比較するために使用される。
ベースラインとして機能する多くの実験は、研究の比較分析のために行われている。
BLEU-1のスコアを持つ画像は十分であると考えられ、BLEU-4のスコアを持つ画像は流体画像キャプションを有すると考えられている。
両方のBLEUスコアに対して、VGG16を用いた注目ベースの双方向LSTMは、それぞれ0.59と0.19の最良の結果を得た。
実験の結果、ヒンディー語で意味論的に正確な画像キャプションを生成できる研究能力が結論付けられた。
この研究は、目標を達成し、将来の研究は、この研究モデルによってガイドできる。
関連論文リスト
- Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation [0.0]
本調査では,注目に基づく画像キャプションモデルについてレビューし,これらをトランスフォーマーベース,ディープラーニングベース,ハイブリッドアプローチに分類した。
ベンチマークデータセットを調査し、BLEU、METEOR、CIDEr、ROUGEなどの評価指標を検討し、多言語キャプションにおける課題を強調している。
我々は、マルチモーダル学習、AIによるアシスタントのリアルタイム応用、医療、法医学的分析など、将来の研究方向を特定する。
論文 参考訳(メタデータ) (2025-06-03T22:18:19Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Autoregressive Pre-Training on Pixels and Texts [35.82610192457444]
文書画像とテキストの両方で事前学習された自己回帰フレームワークを用いて、視覚的・テキスト的両言語の二重モードについて検討する。
本手法はマルチモーダル・トレーニング・ストラテジーを用いて,次のパッチ予測による視覚データと,次のトークン予測による回帰ヘッドおよび/またはテキストデータを利用する。
視覚データのみを訓練した一方向画素モデルでは,複数の言語理解タスクにおける最先端の双方向モデルに匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。