論文の概要: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- arxiv url: http://arxiv.org/abs/2503.01453v1
- Date: Mon, 03 Mar 2025 12:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:55.590539
- Title: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- Title(参考訳): AC-Lite : 低リソース・アサマイズ言語のための軽量画像キャプションモデル
- Authors: Pankaj Choudhury, Yogesh Aggarwal, Prithwijit Guha, Sukumar Nandi,
- Abstract要約: この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
AC-Liteは、FasterRCNNのような計算量の多い視覚特徴抽出器を軽量のShuffleNetv2x1.5に置き換えることで、計算要求を減らす。
提案したAC-Liteモデルは、1.098 GFLOPと25.65Mパラメータを持つCOCO-ACデータセット上で82.3 CIDErスコアを達成する。
- 参考スコア(独自算出の注目度): 3.9672712915269575
- License:
- Abstract: Neural networks have significantly advanced AI applications, yet their real-world adoption remains constrained by high computational demands, hardware limitations, and accessibility challenges. In image captioning, many state-of-the-art models have achieved impressive performances while relying on resource-intensive architectures. This made them impractical for deployment on resource-constrained devices. This limitation is particularly noticeable for applications involving low-resource languages. We demonstrate the case of image captioning in Assamese language, where lack of effective, scalable systems can restrict the accessibility of AI-based solutions for native Assamese speakers. This work presents AC-Lite, a computationally efficient model for image captioning in low-resource Assamese language. AC-Lite reduces computational requirements by replacing computation-heavy visual feature extractors like FasterRCNN with lightweight ShuffleNetv2x1.5. Additionally, Gated Recurrent Units (GRUs) are used as the caption decoder to further reduce computational demands and model parameters. Furthermore, the integration of bilinear attention enhances the model's overall performance. AC-Lite can operate on edge devices, thereby eliminating the need for computation on remote servers. The proposed AC-Lite model achieves 82.3 CIDEr score on the COCO-AC dataset with 1.098 GFLOPs and 25.65M parameters.
- Abstract(参考訳): ニューラルネットワークは非常に高度なAIアプリケーションを持っているが、実際の採用は高い計算要求、ハードウェアの制限、アクセシビリティの課題によって制限されている。
画像キャプションでは、多くの最先端モデルがリソース集約アーキテクチャに依存しながら印象的なパフォーマンスを達成している。
これにより、リソース制約のあるデバイスへのデプロイが不可能になった。
この制限は低リソース言語を含むアプリケーションでは特に顕著である。
Assamese言語のイメージキャプションでは,AIベースのネイティブ話者へのアクセシビリティを制限し,効率よくスケーラブルなシステムがない場合を実演する。
この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
AC-Liteは、FasterRCNNのような計算量の多い視覚特徴抽出器を軽量のShuffleNetv2x1.5に置き換えることで、計算要求を減らす。
さらに、GRU(Gated Recurrent Units)がキャプションデコーダとして使われ、計算要求とモデルパラメータをさらに削減する。
さらに、双線形アテンションの統合により、モデル全体のパフォーマンスが向上する。
AC-Liteはエッジデバイスで動作するため、リモートサーバでの計算は不要である。
提案したAC-Liteモデルは、1.098 GFLOPと25.65Mパラメータを持つCOCO-ACデータセット上で82.3 CIDErスコアを達成する。
関連論文リスト
- Lightweight Operations for Visual Speech Recognition [5.254384872541785]
我々は資源制約のあるデバイスのための軽量な視覚音声認識アーキテクチャを開発した。
我々は、ビデオシーケンスからの単語認識のために、大規模な公開データセット上でモデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2025-02-07T11:08:32Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - Attention-based UNet enabled Lightweight Image Semantic Communication
System over Internet of Things [4.62215026195301]
モノのインターネット(IoT)デバイス上に展開される軽量な画像意味コミュニケーションシステムの問題について検討する。
本稿では,低計算複雑性と小型モデルサイズを実現する軽量画像意味コミュニケーション (LSSC) システムを提案する。
論文 参考訳(メタデータ) (2024-01-14T16:46:50Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。