論文の概要: From Behavioral Performance to Internal Competence: Interpreting Vision-Language Models with VLM-Lens
- arxiv url: http://arxiv.org/abs/2510.02292v1
- Date: Thu, 02 Oct 2025 17:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.281685
- Title: From Behavioral Performance to Internal Competence: Interpreting Vision-Language Models with VLM-Lens
- Title(参考訳): 行動性能から内部能力へ:VLM-Lensを用いた視覚言語モデルの解釈
- Authors: Hala Sheta, Eric Huang, Shuyu Wu, Ilia Alenabi, Jiajun Hong, Ryker Lin, Ruoxi Ning, Daniel Wei, Jialin Yang, Jiawei Zhou, Ziqiao Ma, Freda Shi,
- Abstract要約: VLM-Lensは、視覚言語モデルの体系的なベンチマーク、分析、解釈を可能にするように設計されている。
モデル固有の複雑さを抽象化する、統一されたYAML構成可能なインターフェースを提供する。
VLM-Lensは、VLMの理解と改善に関するコミュニティの取り組みを加速するオープンソースプロジェクトとしてリリースされた。
- 参考スコア(独自算出の注目度): 18.806125841573756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VLM-Lens, a toolkit designed to enable systematic benchmarking, analysis, and interpretation of vision-language models (VLMs) by supporting the extraction of intermediate outputs from any layer during the forward pass of open-source VLMs. VLM-Lens provides a unified, YAML-configurable interface that abstracts away model-specific complexities and supports user-friendly operation across diverse VLMs. It currently supports 16 state-of-the-art base VLMs and their over 30 variants, and is extensible to accommodate new models without changing the core logic. The toolkit integrates easily with various interpretability and analysis methods. We demonstrate its usage with two simple analytical experiments, revealing systematic differences in the hidden representations of VLMs across layers and target concepts. VLM-Lens is released as an open-sourced project to accelerate community efforts in understanding and improving VLMs.
- Abstract(参考訳): オープンソースVLMの前方通過時の任意の層からの中間出力の抽出を支援することにより,視覚言語モデルの体系的ベンチマーク,解析,解釈を可能にするツールキットであるVLM-Lensを紹介する。
VLM-Lensは、モデル固有の複雑さを抽象化し、様々なVLMでユーザフレンドリな操作をサポートする、統一されたYAML構成可能なインターフェースを提供する。
現在16の最先端のVLMと30以上の変種をサポートしており、コアロジックを変更することなく新しいモデルに対応することができる。
このツールキットは、様々な解釈可能性と分析方法と容易に統合される。
本稿では,2つの簡単な解析実験により,層間および対象概念間のVLMの隠蔽表現の系統的差異を明らかにする。
VLM-Lensは、VLMの理解と改善に関するコミュニティの取り組みを加速するオープンソースプロジェクトとしてリリースされた。
関連論文リスト
- MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization [52.66401137323065]
視覚言語モデル(VLM)の内部表現を可視化するMIMIC(Multimodal Inversion for Model Interpretation and Conceptualization)フレームワークを提案する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
論文 参考訳(メタデータ) (2025-08-11T10:36:58Z) - GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文 参考訳(メタデータ) (2025-06-18T17:59:49Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。