論文の概要: AFRICAPTION: Establishing a New Paradigm for Image Captioning in African Languages
- arxiv url: http://arxiv.org/abs/2510.17405v1
- Date: Mon, 20 Oct 2025 10:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.416421
- Title: AFRICAPTION: Establishing a New Paradigm for Image Captioning in African Languages
- Title(参考訳): AFRICAPTION: アフリカの言語における画像キャプションのための新しいパラダイムを確立する
- Authors: Mardiyyah Oduwole, Prince Mireku, Fatimo Adebanjo, Oluwatosin Olajide, Mahi Aminu Aliyu, Jekaterina Novikova,
- Abstract要約: AfriCaptionは20のアフリカ語で画像キャプションを行うための総合的なフレームワークである。
i) Flickr8k上に構築されたキュレートされたデータセットは、文脈認識の選択と翻訳プロセスを通じて生成されるセマンティックに整列したキャプション、(ii) モデルのセンマブルと適応置換による継続的な品質を保証する動的なコンテキスト保存パイプライン、(iii) 0.5Bパラメータのビジョン・トゥ・テキストアーキテクチャであるAfriCaptionモデル、そして、SigLIPとNLLB200を非表現言語間のキャプション生成のために統合した。
- 参考スコア(独自算出の注目度): 1.4600761102672433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal AI research has overwhelmingly focused on high-resource languages, hindering the democratization of advancements in the field. To address this, we present AfriCaption, a comprehensive framework for multilingual image captioning in 20 African languages and our contributions are threefold: (i) a curated dataset built on Flickr8k, featuring semantically aligned captions generated via a context-aware selection and translation process; (ii) a dynamic, context-preserving pipeline that ensures ongoing quality through model ensembling and adaptive substitution; and (iii) the AfriCaption model, a 0.5B parameter vision-to-text architecture that integrates SigLIP and NLLB200 for caption generation across under-represented languages. This unified framework ensures ongoing data quality and establishes the first scalable image-captioning resource for under-represented African languages, laying the groundwork for truly inclusive multimodal AI.
- Abstract(参考訳): マルチモーダルAI研究は、この分野における進歩の民主化を妨げる、高リソース言語に圧倒的に重点を置いている。
これを解決するために、20のアフリカ言語で多言語画像キャプションを行うための包括的なフレームワークであるAfriCaptionを紹介します。
(i)Flickr8k上に構築されたキュレートされたデータセットであって、文脈対応の選択及び翻訳プロセスを介して生成される意味的に整合したキャプションを特徴とする。
(二)モデルアンサンブル及び適応置換による継続的な品質を確保する動的な文脈保存パイプライン、及び
(iii) AfriCaptionモデル(0.5Bパラメータビジョン・トゥ・テキストアーキテクチャ)は、SigLIPとNLLB200を統合し、非表現言語間のキャプション生成を行う。
この統合されたフレームワークは、進行中のデータ品質を保証し、非表現のアフリカ言語のための最初のスケーラブルなイメージキャプションリソースを確立し、真に包括的なマルチモーダルAIの基礎を築いた。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - CONCAP: Seeing Beyond English with Concepts Retrieval-Augmented Captioning [7.439550425786999]
検索したキャプションと画像固有の概念を統合する多言語画像キャプションモデルであるConCAPを紹介する。
XM3600データセットの実験は、CONCAPが低級および中級の言語で強力なパフォーマンスを実現することを示唆している。
論文 参考訳(メタデータ) (2025-07-27T21:00:02Z) - Image Embedding Sampling Method for Diverse Captioning [2.705107928847026]
本研究では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。
提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T12:33:19Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。