論文の概要: An approach to identify the most semantically informative deep representations of text and images
- arxiv url: http://arxiv.org/abs/2505.17101v1
- Date: Wed, 21 May 2025 07:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.563651
- Title: An approach to identify the most semantically informative deep representations of text and images
- Title(参考訳): テキストと画像の最も意味的な深い表現を識別するアプローチ
- Authors: Santiago Acevedo, Andrea Mascaretti, Riccardo Rende, Matéo Mahaut, Marco Baroni, Alessandro Laio,
- Abstract要約: ディープニューラルネットワークは、セマンティック関連データに類似した表現を開発することが知られている。
本稿では,意味的関連データの表現の相対的情報量を測定する手法を提案する。
また、大規模言語モデルと視覚変換器の複数のトークンにエンコードする方法も検討する。
- 参考スコア(独自算出の注目度): 46.10456001774458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are known to develop similar representations for semantically related data, even when they belong to different domains, such as an image and its description, or the same text in different languages. We present a method for quantitatively investigating this phenomenon by measuring the relative information content of the representations of semantically related data and probing how it is encoded into multiple tokens of large language models (LLMs) and vision transformers. Looking first at how LLMs process pairs of translated sentences, we identify inner ``semantic'' layers containing the most language-transferable information. We find moreover that, on these layers, a larger LLM (DeepSeek-V3) extracts significantly more general information than a smaller one (Llama3.1-8B). Semantic information is spread across many tokens and it is characterized by long-distance correlations between tokens and by a causal left-to-right (i.e., past-future) asymmetry. We also identify layers encoding semantic information within visual transformers. We show that caption representations in the semantic layers of LLMs predict visual representations of the corresponding images. We observe significant and model-dependent information asymmetries between image and text representations.
- Abstract(参考訳): ディープニューラルネットワークは、画像や記述など、異なるドメインに属している場合や、異なる言語の同じテキストであっても、セマンティックな関連データに対する同様の表現を開発することが知られている。
本稿では,意味的関連データの表現の相対的情報量を測定し,それを大規模言語モデル(LLM)と視覚変換器の複数トークンにエンコードする方法を提案する。
まず、LLMが翻訳文のペアをどのように処理するかを見て、最も言語に変換可能な情報を含む内部の ``semantic'' 層を識別する。
さらにこれらの層上では、より大きなLCM (DeepSeek-V3) がより小さな層 (Llama3.1-8B) よりもはるかに一般的な情報を抽出する。
意味情報は多くのトークンに分散し、トークン間の長距離相関と因果的左から右への非対称性によって特徴付けられる。
また、視覚変換器内の意味情報を符号化する層も同定する。
LLMのセマンティック層におけるキャプション表現は,対応する画像の視覚的表現を予測する。
我々は、画像とテキストの表現の間に有意かつモデルに依存した情報非対称性を観察する。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
本研究では,視覚言語モデルが画像理解タスクをどのように扱うかを検討する。
マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。
対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存する傾向がある。
論文 参考訳(メタデータ) (2024-12-09T16:39:40Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。