Fugu-MT 論文翻訳(概要): What matters when building vision-language models?

論文の概要: What matters when building vision-language models?

arxiv url: http://arxiv.org/abs/2405.02246v1
Date: Fri, 3 May 2024 17:00:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 12:06:51.163201
Title: What matters when building vision-language models?
Title（参考訳）: ビジョン言語モデルを構築する上で、何が重要なのか?
Authors: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh,
Abstract要約: 我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。 Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
参考スコア（独自算出の注目度）: 52.8539131958858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training.
Abstract（参考訳）: 視覚言語モデル(VLM)への関心の高まりは、大きな言語モデルと視覚変換器の改善によって引き起こされている。この主題に関する文献が豊富にあるにもかかわらず、VLMの設計に関する批判的な決定は、しばしば正当化されない。これらの決定は、どの選択がモデルの性能を向上させるかを特定するのが難しく、この分野の進歩を妨げると我々は主張する。この問題に対処するため、事前訓練されたモデル、アーキテクチャの選択、データ、トレーニング方法に関する広範な実験を行います。我々は,80億個のパラメータからなる効率的な基礎的VLMであるIdefics2を開発した。 Idefics2は様々なマルチモーダルベンチマークで最先端のパフォーマンスを実現しており、しばしば4倍の大きさのモデルと同等である。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3～28%向上する。
論文参考訳（メタデータ） (2025-03-05T19:46:04Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
When are Foundation Models Effective? Understanding the Suitability for Pixel-Level Classification Using Multispectral Imagery [23.464350453312584]
非常に大きなディープラーニングモデルであるファンデーションモデルは、様々な言語やビジョンタスクにおいて印象的なパフォーマンスを示してきた。ファンデーションモデルは、常に異なるリモートセンシングタスクに適した選択肢であり、いつ、いつ、いつ、そうでないか? 本研究の目的は,画素レベルの分類のための基礎モデルの現状と適合性を理解することである。
論文参考訳（メタデータ） (2024-04-17T23:30:48Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文参考訳（メタデータ） (2023-07-05T17:44:28Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。