論文の概要: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- arxiv url: http://arxiv.org/abs/2503.01453v2
- Date: Wed, 30 Apr 2025 08:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.30858
- Title: AC-Lite : A Lightweight Image Captioning Model for Low-Resource Assamese Language
- Title(参考訳): AC-Lite : 低リソース・アサマイズ言語のための軽量画像キャプションモデル
- Authors: Pankaj Choudhury, Yogesh Aggarwal, Prabhanjan Jadhav, Prithwijit Guha, Sukumar Nandi,
- Abstract要約: この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
ShuffleNetv2x1.5とGRUベースの言語デコーダの組み合わせと双線形アテンションは、最小限の計算で最高のパフォーマンスを提供する。
AC-Liteは2.45 GFLOPと22.87Mパラメータを持つCOCO-ACデータセットで82.3 CIDErスコアを達成した。
- 参考スコア(独自算出の注目度): 3.7440657375085986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing works in image caption synthesis use computation heavy deep neural networks and generates image descriptions in English language. This often restricts this important assistive tool for widespread use across language and accessibility barriers. This work presents AC-Lite, a computationally efficient model for image captioning in low-resource Assamese language. AC-Lite reduces computational requirements by replacing computation-heavy deep network components with lightweight alternatives. The AC-Lite model is designed through extensive ablation experiments with different image feature extractor networks and language decoders. A combination of ShuffleNetv2x1.5 with GRU based language decoder along with bilinear attention is found to provide the best performance with minimum compute. AC-Lite was observed to achieve an 82.3 CIDEr score on the COCO-AC dataset with 2.45 GFLOPs and 22.87M parameters.
- Abstract(参考訳): 画像キャプション合成における既存の研究のほとんどは、計算に重い深層ニューラルネットワークを使用し、英語で画像記述を生成する。
これはしばしば、言語やアクセシビリティ障壁を越えて広く使われるために、この重要な補助ツールを制限する。
この研究は、低リソースのアサメ言語における画像キャプションのための計算効率の良いモデルであるAC-Liteを提示する。
AC-Liteは計算量の多いディープネットワークコンポーネントを軽量な代替品に置き換えることで計算要求を減らす。
AC-Liteモデルは、異なる画像特徴抽出ネットワークと言語デコーダを用いた広範囲なアブレーション実験によって設計されている。
ShuffleNetv2x1.5とGRUベースの言語デコーダの組み合わせと双線形アテンションは、最小限の計算で最高のパフォーマンスを提供する。
AC-Liteは2.45 GFLOPと22.87Mパラメータを持つCOCO-ACデータセットで82.3 CIDErスコアを達成した。
関連論文リスト
- ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。
ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。
ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文 参考訳(メタデータ) (2025-02-21T18:59:57Z) - Lightweight Operations for Visual Speech Recognition [5.254384872541785]
我々は資源制約のあるデバイスのための軽量な視覚音声認識アーキテクチャを開発した。
我々は、ビデオシーケンスからの単語認識のために、大規模な公開データセット上でモデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2025-02-07T11:08:32Z) - MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost [39.43930856789352]
多言語アノテーションによる高品質な画像に調整されたモデルとは異なり、広く利用可能なテキストエンコーダを活用することで、ノイズの多いインターネット画像とテキストのペアは、データの効率を大幅に向上させる。
我々は,20M未満のパラメータを持つ軽量言語アダプタであるMulan(Multi-Language Adapter)を導入し,凍結テキストエンコーダと画像拡散モデルを用いて訓練を行った。
論文 参考訳(メタデータ) (2024-12-02T08:38:19Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Attention-based UNet enabled Lightweight Image Semantic Communication
System over Internet of Things [4.62215026195301]
モノのインターネット(IoT)デバイス上に展開される軽量な画像意味コミュニケーションシステムの問題について検討する。
本稿では,低計算複雑性と小型モデルサイズを実現する軽量画像意味コミュニケーション (LSSC) システムを提案する。
論文 参考訳(メタデータ) (2024-01-14T16:46:50Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP
Performance on Low-Resource Languages [3.760470440988674]
CAPIVARAは低リソース言語における多言語CLIPモデルの性能を高めるために設計された費用効率のよいフレームワークである。
低リソース言語で画像キャプションと機械翻訳を用いて合成キャプションを生成する。
トレーニング済みの複数言語CLIPを1つのGPUで2時間微調整することで、他の低リソース言語の大幅な改善の可能性を示す。
論文 参考訳(メタデータ) (2023-10-20T17:44:25Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。