論文の概要: Brazilian Portuguese Image Captioning with Transformers: A Study on Cross-Native-Translated Dataset
- arxiv url: http://arxiv.org/abs/2602.00393v1
- Date: Fri, 30 Jan 2026 23:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.156063
- Title: Brazilian Portuguese Image Captioning with Transformers: A Study on Cross-Native-Translated Dataset
- Title(参考訳): トランスフォーマーを用いたブラジルのポルトガル語画像キャプション:クロスNative-Translated Datasetの検討
- Authors: Gabriel Bromonschenkel, Alessandro L. Koerich, Thiago M. Paixão, Hilário Tomaz Alves de Oliveira,
- Abstract要約: 本研究では,ブラジルのポルトガル語ICを対象としたトランスフォーマーを用いた視覚・言語モデルのクロスネイティブ評価を提案する。
ブラジル原住民のポルトガル語話者が手動で作成したキャプションで構成されたFlickr30Kのバージョンを使用し、それを英語からポルトガル語に自動翻訳されたキャプションと比較する。
以上の結果から,Swin-DistilBERTimbauは他のモデルよりも優れており,データセット間の強い一般化が示されている。
- 参考スコア(独自算出の注目度): 41.02122939888977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning (IC) refers to the automatic generation of natural language descriptions for images, with applications ranging from social media content generation to assisting individuals with visual impairments. While most research has been focused on English-based models, low-resource languages such as Brazilian Portuguese face significant challenges due to the lack of specialized datasets and models. Several studies create datasets by automatically translating existing ones to mitigate resource scarcity. This work addresses this gap by proposing a cross-native-translated evaluation of Transformer-based vision and language models for Brazilian Portuguese IC. We use a version of Flickr30K comprised of captions manually created by native Brazilian Portuguese speakers and compare it to a version with captions automatically translated from English to Portuguese. The experiments include a cross-context approach, where models trained on one dataset are tested on the other to assess the translation impact. Additionally, we incorporate attention maps for model inference interpretation and use the CLIP-Score metric to evaluate the image-description alignment. Our findings show that Swin-DistilBERTimbau consistently outperforms other models, demonstrating strong generalization across datasets. ViTucano, a Brazilian Portuguese pre-trained VLM, surpasses larger multilingual models (GPT-4o, LLaMa 3.2 Vision) in traditional text-based evaluation metrics, while GPT-4 models achieve the highest CLIP-Score, highlighting improved image-text alignment. Attention analysis reveals systematic biases, including gender misclassification, object enumeration errors, and spatial inconsistencies. The datasets and the models generated and analyzed during the current study are available in: https://github.com/laicsiifes/transformer-caption-ptbr.
- Abstract(参考訳): 画像キャプション(英: Image Casting, IC)とは、ソーシャルメディアコンテンツ生成から視覚障害者支援まで、画像の自然言語記述の自動生成である。
ほとんどの研究は英語ベースのモデルに焦点が当てられているが、ブラジルポルトガル語のような低リソース言語は、特別なデータセットやモデルがないため、重大な課題に直面している。
いくつかの研究は、資源不足を軽減するために既存のデータセットを自動的に翻訳することでデータセットを作成する。
本研究は、ブラジルのポルトガル語ICのためのトランスフォーマーに基づく視覚と言語モデルの評価をネイティブに変換することで、このギャップに対処する。
ブラジル原住民のポルトガル語話者が手動で作成したキャプションで構成されたFlickr30Kのバージョンを使用し、それを英語からポルトガル語に自動翻訳されたキャプションと比較する。
実験には、あるデータセットでトレーニングされたモデルを他方でテストして、翻訳の影響を評価する、コンテキスト横断アプローチが含まれる。
さらに、モデル推論解釈のためのアテンションマップを導入し、CLIP-Scoreメトリックを用いて画像記述アライメントを評価する。
以上の結果から,Swin-DistilBERTimbauは他のモデルよりも優れており,データセット間の強い一般化が示されている。
ブラジルのポルトガル語で事前訓練されたVLMであるViTucanoは、従来のテキストベースの評価指標でより大きな多言語モデル(GPT-4o、LLaMa 3.2 Vision)を上回り、GPT-4モデルは最も高いCLIPスコアを達成し、改善された画像テキストアライメントを強調している。
注意分析は、性別の誤分類、オブジェクト列挙誤差、空間的不整合など、体系的なバイアスを明らかにする。
データセットと、現在の研究中に生成および分析されたモデルは、以下の通りである。
関連論文リスト
- Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation [0.0]
本調査では,注目に基づく画像キャプションモデルについてレビューし,これらをトランスフォーマーベース,ディープラーニングベース,ハイブリッドアプローチに分類した。
ベンチマークデータセットを調査し、BLEU、METEOR、CIDEr、ROUGEなどの評価指標を検討し、多言語キャプションにおける課題を強調している。
我々は、マルチモーダル学習、AIによるアシスタントのリアルタイム応用、医療、法医学的分析など、将来の研究方向を特定する。
論文 参考訳(メタデータ) (2025-06-03T22:18:19Z) - A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。
非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。
本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文 参考訳(メタデータ) (2025-03-06T16:31:34Z) - Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。
本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。
提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文 参考訳(メタデータ) (2024-10-30T18:13:11Z) - Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。