論文の概要: Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models
- arxiv url: http://arxiv.org/abs/2402.07865v1
- Date: Mon, 12 Feb 2024 18:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:20:56.506011
- Title: Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models
- Title(参考訳): prismatic vlms:ビジュアルコンディショニング言語モデルの設計空間の検討
- Authors: Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang,
Thomas Kollar, Dorsa Sadigh
- Abstract要約: 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
- 参考スコア(独自算出の注目度): 77.77951795883698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-conditioned language models (VLMs) have seen growing adoption in
applications such as visual dialogue, scene understanding, and robotic task
planning; adoption that has fueled a wealth of new models such as LLaVa,
InstructBLIP, and PaLI-3. Despite the volume of new releases, key design
decisions around image preprocessing, architecture, and optimization are
under-explored, making it challenging to understand what factors account for
model performance $-$ a challenge further complicated by the lack of objective,
consistent evaluations. To address these gaps, we first compile a suite of
standardized evaluations spanning visual question answering, object
localization from language, and targeted challenge sets that probe properties
such as hallucination; evaluations that provide calibrated, fine-grained
insight into a VLM's capabilities. Second, we rigorously investigate VLMs along
key design axes, including pretrained visual representations and quantifying
the tradeoffs of using base vs. instruct-tuned language models, amongst others.
We couple our analysis with three resource contributions: (1) a unified
framework for evaluating VLMs, (2) optimized, flexible code for VLM training,
and (3) checkpoints for all models, including a family of VLMs at the 7-13B
scale that strictly outperform InstructBLIP and LLaVa v1.5, the
state-of-the-art in open-source VLMs.
- Abstract(参考訳): 視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用され、LLaVa、InstructBLIP、PaLI-3といった多くの新しいモデルが採用されている。
新しいリリースの量にもかかわらず、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査であり、客観的で一貫した評価の欠如によってさらに複雑な課題として、どの要因がモデルパフォーマンスに寄与するかを理解することは困難である。
これらのギャップに対処するために、まず視覚的質問応答、言語からのオブジェクトローカライゼーション、幻覚などの特性を探索するターゲットチャレンジセット、VLMの機能に関する校正されたきめ細かな洞察を提供する評価の集合をコンパイルする。
第2に,事前学習された視覚的表現や,ベースと命令型言語モデルとのトレードオフの定量化など,キー設計軸に沿ってvlmを厳格に検討する。
1)VLMの評価のための統一的なフレームワーク、(2)VLMトレーニングのための最適化された柔軟なコード、(3)オープンソースのVLMの最先端技術であるInstructBLIPとLLaVa v1.5を厳密に上回る7-13BスケールでのVLMのファミリーを含む全てのモデルのチェックポイント。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文 参考訳(メタデータ) (2024-02-03T14:28:55Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。