論文の概要: Image captioning for Brazilian Portuguese using GRIT model
- arxiv url: http://arxiv.org/abs/2402.05106v1
- Date: Wed, 7 Feb 2024 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:05:40.695239
- Title: Image captioning for Brazilian Portuguese using GRIT model
- Title(参考訳): GRITモデルを用いたブラジルポルトガル語画像キャプション
- Authors: Rafael Silva de Alencar and William Alberto Cruz Casta\~neda and
Marcellus Amadeus
- Abstract要約: 我々はGRIT (Grid - and Region-based Image Casting Transformer) モデルを用いてこの作業を行う。
GRITはトランスフォーマーのみのニューラルネットワークで、2つの視覚的特徴を効果的に利用してより良いキャプションを生成する。
本研究では,ブラジルポルトガル語のデータセットを用いてGRITモデルをトレーニングし,ブラジルポルトガル語のイメージキャプション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents the early development of a model of image captioning for
the Brazilian Portuguese language. We used the GRIT (Grid - and Region-based
Image captioning Transformer) model to accomplish this work. GRIT is a
Transformer-only neural architecture that effectively utilizes two visual
features to generate better captions. The GRIT method emerged as a proposal to
be a more efficient way to generate image captioning. In this work, we adapt
the GRIT model to be trained in a Brazilian Portuguese dataset to have an image
captioning method for the Brazilian Portuguese Language.
- Abstract(参考訳): この研究は、ブラジルポルトガル語のイメージキャプションモデルの初期の発展を示すものである。
我々はGRIT (Grid - and Region-based Image Casting Transformer) モデルを用いてこの作業を行った。
GRITはトランスフォーマーのみのニューラルネットワークで、2つの視覚的特徴を効果的に利用してより良いキャプションを生成する。
GRIT法はより効率的な画像キャプション生成方法の提案として登場した。
本研究では,ブラジルポルトガル語のデータセットを用いてGRITモデルをトレーニングし,ブラジルポルトガル語のイメージキャプション手法を提案する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented
Language Model Prompting [15.266569206458648]
本稿では,検索したキャプションを付加した言語モデルによって機能する多言語キャプションモデルLMCapを提案する。
地理的に多様な画像のXM3600データセットを用いた実験により、我々のモデルは、完全に教師付き多言語キャプションモデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-31T13:03:17Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - Dual-Stream Transformer for Generic Event Boundary Captioning [25.661340616977107]
本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。
本稿では,映像コンテンツエンコーディングとキャプション生成の両方を改善したDual-Stream Transformerを提案する。
論文 参考訳(メタデータ) (2022-07-07T01:47:19Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。