論文の概要: Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
- arxiv url: http://arxiv.org/abs/2402.07865v2
- Date: Thu, 30 May 2024 13:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 21:05:54.232368
- Title: Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
- Title(参考訳): Prismatic VLMs: 視覚的に記述された言語モデルの設計空間の検討
- Authors: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh,
- Abstract要約: 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
- 参考スコア(独自算出の注目度): 73.40350756742231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-conditioned language models (VLMs) have seen growing adoption in applications such as visual dialogue, scene understanding, and robotic task planning; adoption that has fueled a wealth of new models such as LLaVa, InstructBLIP, and PaLI-3. Despite the volume of new releases, key design decisions around image preprocessing, architecture, and optimization are under-explored, making it challenging to understand what factors account for model performance $-$ a challenge further complicated by the lack of objective, consistent evaluations. To address these gaps, we first compile a suite of standardized evaluations spanning visual question answering, object localization, and challenge sets that probe properties such as hallucination; evaluations that provide fine-grained insight VLM capabilities. Second, we rigorously investigate VLMs along key design axes, including pretrained visual representations and training from base vs. instruct-tuned language models, amongst others. We couple our analysis with three resource contributions: (1) a unified framework for evaluating VLMs, (2) optimized, flexible training code, and (3) checkpoints for all models, including a family of VLMs at the 7-13B scale that strictly outperform InstructBLIP and LLaVa v1.5, the state-of-the-art in open VLMs.
- Abstract(参考訳): 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用され、LLaVa、InstructBLIP、PaLI-3といった多くの新しいモデルが採用されている。
新たなリリースの量にもかかわらず、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査であり、客観的で一貫した評価の欠如によってさらに複雑な課題として、どの要因がモデルパフォーマンスに寄与するかを理解することは困難である。
これらのギャップに対処するために、まず視覚的質問応答、オブジェクトの局所化、幻覚などの特性を探索するチャレンジセット、微妙な洞察型VLM能力を提供する評価など、標準化された評価スイートをコンパイルする。
第2に、事前訓練された視覚表現やベース対インストラクション学習言語モデルからのトレーニングを含む、キー設計軸に沿ったVLMを厳格に調査する。
1)VLMの評価のための統一的なフレームワーク,(2)最適化されたフレキシブルなトレーニングコード,(3)オープンなVLMの最先端であるInstructBLIPとLLaVa v1.5を厳格に上回る7-13BスケールのVLMのファミリーを含むすべてのモデルのチェックポイント。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。