論文の概要: CapsFusion: Rethinking Image-Text Data at Scale
- arxiv url: http://arxiv.org/abs/2310.20550v1
- Date: Tue, 31 Oct 2023 15:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:30:11.508491
- Title: CapsFusion: Rethinking Image-Text Data at Scale
- Title(参考訳): CapsFusion: スケールでのイメージテキストデータの再考
- Authors: Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong
Wang, Jingjing Liu
- Abstract要約: 本稿では,ウェブベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するためのCapsFusionを提案する。
実験の結果,CapsFusionキャプションはモデル性能において既存のキャプションよりも圧倒的に優れていた。
- 参考スコア(独自算出の注目度): 29.78100677892561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models demonstrate remarkable generalist ability to perform
diverse multimodal tasks in a zero-shot manner. Large-scale web-based
image-text pairs contribute fundamentally to this success, but suffer from
excessive noise. Recent studies use alternative captions synthesized by
captioning models and have achieved notable benchmark performance. However, our
experiments reveal significant Scalability Deficiency and World Knowledge Loss
issues in models trained with synthetic captions, which have been largely
obscured by their initial benchmark success. Upon closer examination, we
identify the root cause as the overly-simplified language structure and lack of
knowledge details in existing synthetic captions. To provide higher-quality and
more scalable multimodal pretraining data, we propose CapsFusion, an advanced
framework that leverages large language models to consolidate and refine
information from both web-based image-text pairs and synthetic captions.
Extensive experiments show that CapsFusion captions exhibit remarkable
all-round superiority over existing captions in terms of model performance
(e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample
efficiency (requiring 11-16 times less computation than baselines), world
knowledge depth, and scalability. These effectiveness, efficiency and
scalability advantages position CapsFusion as a promising candidate for future
scaling of LMM training.
- Abstract(参考訳): 大規模なマルチモーダルモデルは、ゼロショット方式で多様なマルチモーダルタスクを実行する驚くべき一般性を示す。
大規模なWebベースの画像テキストペアはこの成功に基本的に寄与するが、過度なノイズに悩まされる。
最近の研究では、キャプションモデルによって合成された代替キャプションを使用し、顕著なベンチマーク性能を実現している。
しかし,本実験では,合成キャプションで学習したモデルにおいて,スケーラビリティの低下や世界的知識喪失の問題が明らかにされている。
より詳しく調べると、根本原因を過剰に単純化された言語構造と既存の合成キャプションにおける知識の欠如として同定する。
高品質でスケーラブルなマルチモーダル事前学習データを提供するために,Web ベースの画像テキストペアと合成キャプションの両方から情報を統合・洗練するために,大規模言語モデルを活用する高度なフレームワーク CapsFusion を提案する。
大規模な実験により、CapsFusionキャプションは、モデル性能(例えば、COCOとNoCapsにおけるCIDErスコアの改善18.8と18.3)、サンプル効率(ベースラインよりも11~16倍少ない計算量)、世界知識深度、拡張性において、既存のキャプションよりも大幅に優れていることが示された。
これらの効率性、効率性、スケーラビリティの利点は、CapsFusionを将来のLMMトレーニングのスケーリング候補として位置づけている。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。