Fugu-MT 論文翻訳(概要): Joint Adaptive Representations for Image-Language Learning

論文の概要: Joint Adaptive Representations for Image-Language Learning

arxiv url: http://arxiv.org/abs/2305.19924v2
Date: Thu, 1 Jun 2023 12:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 10:49:04.089799
Title: Joint Adaptive Representations for Image-Language Learning
Title（参考訳）: 画像言語学習のための共同適応表現
Authors: AJ Piergiovanni and Anelia Angelova
Abstract要約: 画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2～20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
参考スコア（独自算出の注目度）: 59.40890927221377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-language learning has made unprecedented progress in visual understanding. These developments have come at high costs, as contemporary vision-language models require large model scales and amounts of data. We here propose a much easier recipe for image-language learning, which produces effective models, outperforming bigger and more expensive ones, often trained on orders of magnitude larger datasets. Our key finding is the joint learning of a compact vision and language representation, which adaptively and iteratively fuses the multi-modal features. This results in a more effective image-language learning, greatly lowering the FLOPs by combining and reducing the number of tokens for both text and images, e.g. a 33\% reduction in FLOPs is achieved, compared to baseline fusion techniques used by popular image-language models, while improving performance. This also allows the model to scale without a large increase in FLOPs or memory. In addition, we propose adaptive pre-training data sampling which improves the data efficiency. The proposed approach achieves competitive performance compared to much larger models, and does so with significantly less data and FLOPs. With only 40M training examples and with 39 GFLOPs our lightweight model outperforms many times larger state-of-the-art models of 2-20x more FLOPs and using bigger datasets some of which with close to 1B training examples.
Abstract（参考訳）: 画像言語学習は視覚的理解において前例のない進歩を遂げた。現代の視覚言語モデルは大規模なモデルスケールと大量のデータを必要とするため、これらの開発はコストが高い。ここでは、画像言語学習のより簡単なレシピを提案し、効果的モデルを生成し、より大きくて高価なものより優れ、しばしば桁違いに大きなデータセットで訓練される。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。これにより、一般的な画像言語モデルで使用されるベースライン融合技術に比べて、テキストと画像のトークン数を33\%削減するなど、テキストと画像のトークン数を組み合わせることで、フロップを大幅に削減する、より効果的な画像言語学習が可能になる。これにより、FLOPやメモリを大きく増やすことなくモデルをスケールすることができる。さらに,データ効率を向上させる適応型事前学習データサンプリングを提案する。提案手法は,より大規模なモデルと比較して競争性能が向上し,データとFLOPが大幅に減少する。わずか40万のトレーニングサンプルと39gflopsの軽量モデルでは、最先端モデルの数倍の2～20倍のフロップと、1bのトレーニングサンプルを持つ大きなデータセットを使用しています。

関連論文リスト

Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳（メタデータ） (2025-03-25T09:59:46Z)
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-29T18:59:54Z)
CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文参考訳（メタデータ） (2024-07-30T17:57:32Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning [6.648544684097181]
視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデル本稿では,VLMの学習にフェデレートラーニングとパラメータ効率のよいアダプタを利用する新しい手法を提案する。我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
論文参考訳（メタデータ） (2024-04-12T00:36:43Z)
On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文参考訳（メタデータ） (2024-04-03T17:34:28Z)
A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文参考訳（メタデータ） (2023-11-03T17:29:46Z)
LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning [7.543506531838883]
本稿では,言語モデルの微調整手法であるLM-CPPFを提案する。複数のテキスト分類ベンチマーク実験により, この拡張法が他の手法より優れていることが示された。
論文参考訳（メタデータ） (2023-05-29T15:59:51Z)
Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。 MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文参考訳（メタデータ） (2023-05-03T01:57:33Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。