論文の概要: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- arxiv url: http://arxiv.org/abs/2503.01453v1
- Date: Mon, 03 Mar 2025 12:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.973077
- Title: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- Title(参考訳): AC-Lite : 低リソース・アサマイズ言語のための軽量画像キャプションモデル
- Authors: Pankaj Choudhury, Yogesh Aggarwal, Prithwijit Guha, Sukumar Nandi,
- Abstract要約: この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
AC-Liteは、FasterRCNNのような計算量の多い視覚特徴抽出器を軽量のShuffleNetv2x1.5に置き換えることで、計算要求を減らす。
提案したAC-Liteモデルは、1.098 GFLOPと25.65Mパラメータを持つCOCO-ACデータセット上で82.3 CIDErスコアを達成する。
- 参考スコア(独自算出の注目度): 3.9672712915269575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have significantly advanced AI applications, yet their real-world adoption remains constrained by high computational demands, hardware limitations, and accessibility challenges. In image captioning, many state-of-the-art models have achieved impressive performances while relying on resource-intensive architectures. This made them impractical for deployment on resource-constrained devices. This limitation is particularly noticeable for applications involving low-resource languages. We demonstrate the case of image captioning in Assamese language, where lack of effective, scalable systems can restrict the accessibility of AI-based solutions for native Assamese speakers. This work presents AC-Lite, a computationally efficient model for image captioning in low-resource Assamese language. AC-Lite reduces computational requirements by replacing computation-heavy visual feature extractors like FasterRCNN with lightweight ShuffleNetv2x1.5. Additionally, Gated Recurrent Units (GRUs) are used as the caption decoder to further reduce computational demands and model parameters. Furthermore, the integration of bilinear attention enhances the model's overall performance. AC-Lite can operate on edge devices, thereby eliminating the need for computation on remote servers. The proposed AC-Lite model achieves 82.3 CIDEr score on the COCO-AC dataset with 1.098 GFLOPs and 25.65M parameters.
- Abstract(参考訳): ニューラルネットワークは非常に高度なAIアプリケーションを持っているが、実際の採用は高い計算要求、ハードウェアの制限、アクセシビリティの課題によって制限されている。
画像キャプションでは、多くの最先端モデルがリソース集約アーキテクチャに依存しながら印象的なパフォーマンスを達成している。
これにより、リソース制約のあるデバイスへのデプロイが不可能になった。
この制限は低リソース言語を含むアプリケーションでは特に顕著である。
Assamese言語のイメージキャプションでは,AIベースのネイティブ話者へのアクセシビリティを制限し,効率よくスケーラブルなシステムがない場合を実演する。
この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
AC-Liteは、FasterRCNNのような計算量の多い視覚特徴抽出器を軽量のShuffleNetv2x1.5に置き換えることで、計算要求を減らす。
さらに、GRU(Gated Recurrent Units)がキャプションデコーダとして使われ、計算要求とモデルパラメータをさらに削減する。
さらに、双線形アテンションの統合により、モデル全体のパフォーマンスが向上する。
AC-Liteはエッジデバイスで動作するため、リモートサーバでの計算は不要である。
提案したAC-Liteモデルは、1.098 GFLOPと25.65Mパラメータを持つCOCO-ACデータセット上で82.3 CIDErスコアを達成する。
関連論文リスト
- ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Lightweight Operations for Visual Speech Recognition [5.254384872541785]
我々は資源制約のあるデバイスのための軽量な視覚音声認識アーキテクチャを開発した。
我々は、ビデオシーケンスからの単語認識のために、大規模な公開データセット上でモデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2025-02-07T11:08:32Z) - MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost [39.43930856789352]
多言語アノテーションによる高品質な画像に調整されたモデルとは異なり、広く利用可能なテキストエンコーダを活用することで、ノイズの多いインターネット画像とテキストのペアは、データの効率を大幅に向上させる。
我々は,20M未満のパラメータを持つ軽量言語アダプタであるMulan(Multi-Language Adapter)を導入し,凍結テキストエンコーダと画像拡散モデルを用いて訓練を行った。
論文 参考訳(メタデータ) (2024-12-02T08:38:19Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Attention-based UNet enabled Lightweight Image Semantic Communication
System over Internet of Things [4.62215026195301]
モノのインターネット(IoT)デバイス上に展開される軽量な画像意味コミュニケーションシステムの問題について検討する。
本稿では,低計算複雑性と小型モデルサイズを実現する軽量画像意味コミュニケーション (LSSC) システムを提案する。
論文 参考訳(メタデータ) (2024-01-14T16:46:50Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP
Performance on Low-Resource Languages [3.760470440988674]
CAPIVARAは低リソース言語における多言語CLIPモデルの性能を高めるために設計された費用効率のよいフレームワークである。
低リソース言語で画像キャプションと機械翻訳を用いて合成キャプションを生成する。
トレーニング済みの複数言語CLIPを1つのGPUで2時間微調整することで、他の低リソース言語の大幅な改善の可能性を示す。
論文 参考訳(メタデータ) (2023-10-20T17:44:25Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。