論文の概要: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language
Model
- arxiv url: http://arxiv.org/abs/2402.11684v1
- Date: Sun, 18 Feb 2024 19:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:32:50.075714
- Title: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language
Model
- Title(参考訳): alaVA:ライトビジョンランゲージモデルのためのGPT4V合成データのハーネス化
- Authors: Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo
Wu, Zhiyi Zhang, Zhihong Chen, Jianquan Li, Xiang Wan, Benyou Wang
- Abstract要約: 本研究の目的は、従来のLVLMとリソースフレンドリーなライトバージョンのパフォーマンスギャップを埋めることである。
合成データセットは、GPT-4Vの詳細なキャプションを生成する能力を活用して作成される。
結果、12ベンチマークで最大3B LVLMの競合性能が得られる。
- 参考スコア(独自算出の注目度): 46.538926240412465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have enabled
processing of multimodal inputs in language models but require significant
computational resources for deployment, especially in edge devices. This study
aims to bridge the performance gap between traditional-scale LVLMs and
resource-friendly lite versions by adopting high-quality training data. To do
this, a synthetic dataset is created by leveraging GPT-4V's ability to generate
detailed captions, complex reasoning instructions and detailed answers from
images. The resulted model trained with our data, ALLaVA, achieves competitive
performance on 12 benchmarks up to 3B LVLMs. This work highlights the
feasibility of adopting high-quality data in crafting more efficient LVLMs. Our
online demo is available at \url{https://allava.freedomai.cn}.
- Abstract(参考訳): 近年の大型視覚言語モデル(lvlms)の進歩により、言語モデルにおけるマルチモーダル入力の処理が可能となったが、特にエッジデバイスでは重要な計算資源を必要とする。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
これを実現するために、gpt-4vの詳細なキャプション、複雑な推論命令、画像からの詳細な回答を生成する能力を利用して合成データセットを作成する。
得られたモデルであるALLaVAは、最大3B LVLMまでの12ベンチマークで競合性能を達成する。
この研究は、より効率的なLVLMを作成する際に高品質なデータを採用する可能性を強調している。
オンラインデモは \url{https://allava.freedomai.cn} で公開しています。
関連論文リスト
- PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning [6.648544684097181]
視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデル
本稿では,VLMの学習にフェデレートラーニングとパラメータ効率のよいアダプタを利用する新しい手法を提案する。
我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
論文 参考訳(メタデータ) (2024-04-12T00:36:43Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and
Image Embeddings [16.90107647942174]
高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。
本稿では,Large Language Models(LLMs)と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。