論文の概要: Valley2: Exploring Multimodal Models with Scalable Vision-Language Design
- arxiv url: http://arxiv.org/abs/2501.05901v2
- Date: Mon, 13 Jan 2025 02:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 13:20:20.031453
- Title: Valley2: Exploring Multimodal Models with Scalable Vision-Language Design
- Title(参考訳): Valley2: スケーラブルなビジョンランゲージ設計によるマルチモーダルモデル探索
- Authors: Ziheng Wu, Zhenghao Chen, Ruipu Luo, Can Zhang, Yuan Gao, Zhentao He, Xian Wang, Haoran Lin, Minghui Qiu,
- Abstract要約: Valley2は、すべてのドメインのパフォーマンスを向上させるために設計された、新しいマルチモーダルな大規模言語モデルである。
Valley2は、Eコマースベンチマークにおける最先端(SOTA)のパフォーマンスを達成し、同様のサイズのオープンソースモデルを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 21.753790011761946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision-language models have made remarkable progress, demonstrating outstanding capabilities in various tasks such as image captioning and video understanding. We introduce Valley2, a novel multimodal large language model designed to enhance performance across all domains and extend the boundaries of practical applications in e-commerce and short video scenarios. Notably, Valley2 achieves state-of-the-art (SOTA) performance on e-commerce benchmarks, surpassing open-source models of similar size by a large margin (79.66 vs. 72.76). Additionally, Valley2 ranks second on the OpenCompass leaderboard among models with fewer than 10B parameters, with an impressive average score of 67.4. The code and model weights are open-sourced at https://github.com/bytedance/Valley.
- Abstract(参考訳): 近年,映像キャプションや映像理解といった様々なタスクにおいて,視覚言語モデルが目覚ましい進歩を遂げている。
これは、すべてのドメインのパフォーマンスを高め、eコマースおよびショートビデオシナリオにおける実用的なアプリケーションの境界を拡張するために設計された、新しいマルチモーダルな大規模言語モデルである。
特に、Valley2は、Eコマースベンチマークにおける最先端(SOTA)のパフォーマンスを達成し、同様のサイズのオープンソースモデルを大きなマージン(79.66対72.76)で上回っている。
さらに、バレー2は10Bパラメータ未満のモデルの中でOpenCompassのリーダーボードで2位であり、平均スコアは67.4だった。
コードとモデルの重み付けはhttps://github.com/bytedance/Valley.comでオープンソース化されている。
関連論文リスト
- Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models [90.10322077894033]
長文マルチモーダル学習のためのフロンティア視覚言語モデル(VLM)のファミリーであるEagle 2.5を紹介する。
我々の研究は、長いビデオ理解と高解像度画像理解の課題に対処する。
本稿では,ストーリーレベルのアノテーションとクリップレベルのアノテーションを統合した新しいデータセットであるEagle-Video-110Kを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:57:28Z) - The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文 参考訳(メタデータ) (2025-03-06T16:53:14Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [121.10935982414567]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model [7.082567506213992]
本稿では,最先端のマルチモーダル視覚言語モデルであるXmodel-VLMを紹介する。
コンシューマGPUサーバへの効率的なデプロイのために設計されている。
論文 参考訳(メタデータ) (2024-05-15T09:47:59Z) - TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones [18.954681684239358]
本稿では,様々な視覚言語タスクを対象とした効率的なトレーニングと推論を目的とした,オープンソースのMLLMであるTinyGPT-Vを紹介する。
言語モデル280億のパラメータで、TinyGPT-VはVQAと画像推論タスクにおいて、より大きなパラメータに匹敵する結果を達成している。
論文 参考訳(メタデータ) (2023-12-28T07:11:41Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。