論文の概要: Line of Sight: On Linear Representations in VLLMs
- arxiv url: http://arxiv.org/abs/2506.04706v1
- Date: Thu, 05 Jun 2025 07:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.583798
- Title: Line of Sight: On Linear Representations in VLLMs
- Title(参考訳): 視線:VLLMにおける線形表現について
- Authors: Achyuta Rajaram, Sarah Schwettmann, Jacob Andreas, Arthur Conmy,
- Abstract要約: 残ストリームで線形デオード可能な機能によって表現される、多様なImageNetクラスが見つかる。
線形特徴量の多様性を高めるために,マルチモーダルスパースオートエンコーダ(SAE)を訓練する。
モダリティ間のモデル表現は極めて不整合であるが、より深い層で共有されることが分かる。
- 参考スコア(独自算出の注目度): 44.75626175851506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be equipped with multimodal capabilities by fine-tuning on embeddings of visual inputs. But how do such multimodal models represent images in their hidden activations? We explore representations of image concepts within LlaVA-Next, a popular open-source VLLM. We find a diverse set of ImageNet classes represented via linearly decodable features in the residual stream. We show that the features are causal by performing targeted edits on the model output. In order to increase the diversity of the studied linear features, we train multimodal Sparse Autoencoders (SAEs), creating a highly interpretable dictionary of text and image features. We find that although model representations across modalities are quite disjoint, they become increasingly shared in deeper layers.
- Abstract(参考訳): 言語モデルは、視覚入力の埋め込みを微調整することで、マルチモーダル機能を備えることができる。
しかし、そのようなマルチモーダルモデルは、どのようにして隠れたアクティベーションのイメージを表現するのか?
人気のあるオープンソースVLLMであるLlaVA-Nextにおける画像概念の表現について検討する。
残ストリームで線形デオード可能な機能によって表現される、多様なImageNetクラスが見つかる。
対象とする編集をモデル出力で行うことで,特徴が因果関係にあることを示す。
線形特徴の多様性を高めるために,多モードスパースオートエンコーダ(SAE)を訓練し,テキストと画像の特徴を高度に解釈可能な辞書を作成する。
モダリティ間のモデル表現は極めて不整合であるが、より深い層で共有されることが分かる。
関連論文リスト
- Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。