Fugu-MT 論文翻訳(概要): Cross-Modal Similarity-Based Curriculum Learning for Image Captioning

論文の概要: Cross-Modal Similarity-Based Curriculum Learning for Image Captioning

arxiv url: http://arxiv.org/abs/2212.07075v1
Date: Wed, 14 Dec 2022 07:52:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 14:18:59.455016
Title: Cross-Modal Similarity-Based Curriculum Learning for Image Captioning
Title（参考訳）: 画像キャプションのための相互類似性に基づくカリキュラム学習
Authors: Hongkuan Zhang, Saku Sugawara, Akiko Aizawa, Lei Zhou, Ryohei Sasano, Koichi Takeda
Abstract要約: 本稿では,事前学習された視覚言語モデルによって計算されたクロスモーダル類似度を用いた画像キャプションの簡易かつ効率的な難易度測定法を提案する。 COCOデータセットとFlickr30kデータセットの実験から,提案手法はベースラインに対する性能と競合収束速度を向上することが示された。
参考スコア（独自算出の注目度）: 46.18855398491187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image captioning models require the high-level generalization ability to describe the contents of various images in words. Most existing approaches treat the image-caption pairs equally in their training without considering the differences in their learning difficulties. Several image captioning approaches introduce curriculum learning methods that present training data with increasing levels of difficulty. However, their difficulty measurements are either based on domain-specific features or prior model training. In this paper, we propose a simple yet efficient difficulty measurement for image captioning using cross-modal similarity calculated by a pretrained vision-language model. Experiments on the COCO and Flickr30k datasets show that our proposed approach achieves superior performance and competitive convergence speed to baselines without requiring heuristics or incurring additional training costs. Moreover, the higher model performance on difficult examples and unseen data also demonstrates the generalization ability.
Abstract（参考訳）: 画像キャプションモデルは、様々な画像の内容を単語で記述する高レベルな一般化能力を必要とする。既存のほとんどのアプローチは、学習の困難さの違いを考慮せずに、イメージキャプチャペアをトレーニングにおいて等しく扱う。いくつかのイメージキャプション手法では, 難易度の高いトレーニングデータを提示するカリキュラム学習手法を導入している。しかし、それらの難易度測定はドメイン固有の特徴や事前モデルのトレーニングに基づいている。本稿では,事前学習した視覚言語モデルを用いて計算したクロスモーダル類似性を用いた,画像キャプションの簡易かつ効率的な難易度測定を提案する。 cocoおよびflickr30kデータセットを用いた実験により,提案手法は,ヒューリスティックスや追加のトレーニングコストを必要とせずに,ベースラインに対する優れたパフォーマンスとコンバージェンス速度を実現することが示された。さらに、難しい例や見えないデータに対するより高いモデル性能は、一般化能力を示す。

関連論文リスト

CMIP-CIL: A Cross-Modal Benchmark for Image-Point Class Incremental Learning [10.936166435599572]
画像ポイントクラスインクリメンタル学習は、3Dポイントビジョンロボットが2D画像からカテゴリ知識を継続的に学習するのに役立つ。本研究はまず,CMIP-CILベンチマークの提案と,このクロスモーダルな破滅的な忘れ問題を軽減することを目的として,このクロスモーダルなタスクについて検討する。マスクされた点雲とコントラスト学習フレームワーク内の多視点画像を事前学習し、画像-点対応の一般化による視覚モデルを強化する。
論文参考訳（メタデータ） (2025-04-11T10:28:29Z)
Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文参考訳（メタデータ） (2025-01-28T07:49:52Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data [40.88256210436378]
本稿では,Web スケールの画像テキストデータに基づく視覚モデルの弱教師付き事前学習を提案する。提案手法は,画像テキストデータに基づく事前学習を分類タスクとして再編成する。 Webスケールのデータに対する対照的な学習に比べて、トレーニング速度の2.7倍の加速を実現している。
論文参考訳（メタデータ） (2024-04-24T05:13:28Z)
ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文参考訳（メタデータ） (2024-03-02T20:36:10Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文参考訳（メタデータ） (2023-06-13T17:18:01Z)
Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。 MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文参考訳（メタデータ） (2023-05-03T01:57:33Z)
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。 1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文参考訳（メタデータ） (2023-01-26T15:25:43Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文参考訳（メタデータ） (2021-09-22T18:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。