論文の概要: Representations of Text and Images Align From Layer One
- arxiv url: http://arxiv.org/abs/2601.08017v1
- Date: Mon, 12 Jan 2026 21:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.959787
- Title: Representations of Text and Images Align From Layer One
- Title(参考訳): レイヤ1と異なるテキストと画像の表現
- Authors: Evžen Wybitul, Javier Rando, Florian Tramèr, Stanislav Fort,
- Abstract要約: アダプタベースの視覚言語モデルでは,画像とテキスト記述の表現が第1層から有意に整合していることが示されている。
これは、そのような画像テキストのアライメントが後期層にのみ現れるという、確立された見解とは矛盾する。
- 参考スコア(独自算出の注目度): 33.77870456751849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that for a variety of concepts in adapter-based vision-language models, the representations of their images and their text descriptions are meaningfully aligned from the very first layer. This contradicts the established view that such image-text alignment only appears in late layers. We show this using a new synthesis-based method inspired by DeepDream: given a textual concept such as "Jupiter", we extract its concept vector at a given layer, and then use optimisation to synthesise an image whose representation aligns with that vector. We apply our approach to hundreds of concepts across seven layers in Gemma 3, and find that the synthesised images often depict salient visual features of the targeted textual concepts: for example, already at layer 1, more than 50 % of images depict recognisable features of animals, activities, or seasons. Our method thus provides direct, constructive evidence of image-text alignment on a concept-by-concept and layer-by-layer basis. Unlike previous methods for measuring multimodal alignment, our approach is simple, fast, and does not require auxiliary models or datasets. It also offers a new path towards model interpretability, by providing a way to visualise a model's representation space by backtracing through its image processing components.
- Abstract(参考訳): アダプタベースの視覚言語モデルでは,画像とテキスト記述の表現が第1層から有意に整合していることが示されている。
これは、そのような画像テキストのアライメントが後期層にのみ現れるという、確立された見解とは矛盾する。
我々は、DeepDreamにインスパイアされた新しい合成法を用いて、"Jupiter"のようなテキスト概念を与えられた層で概念ベクトルを抽出し、その表現がベクターと整合した画像の合成に最適化を利用する。
我々はGemma 3の7つの層にまたがる数百の概念にアプローチを適用し、合成された画像は、しばしばターゲットとなるテキスト概念の健全な視覚的特徴を描写している。
提案手法は,概念・概念・層・層・層に基づく画像・テキストアライメントの直接的・構成的証拠を提供する。
従来のマルチモーダルアライメントの測定方法とは異なり、我々のアプローチは単純で高速であり、補助的なモデルやデータセットを必要としない。
また、画像処理コンポーネントをバックトレースすることでモデルの表現空間を可視化する方法を提供することで、モデルの解釈可能性への新たな道を提供する。
関連論文リスト
- UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。