論文の概要: Law of Vision Representation in MLLMs
- arxiv url: http://arxiv.org/abs/2408.16357v1
- Date: Thu, 29 Aug 2024 08:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:22:45.104155
- Title: Law of Vision Representation in MLLMs
- Title(参考訳): MLLMにおける視覚表現法
- Authors: Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)における「視覚表現の法」について述べる。
クロスモーダルアライメント, 視覚表現の対応, MLLM性能の組合せは強い相関関係を示す。
- 参考スコア(独自算出の注目度): 34.55106809660814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the "Law of Vision Representation" in multimodal large language models (MLLMs). It reveals a strong correlation between the combination of cross-modal alignment, correspondence in vision representation, and MLLM performance. We quantify the two factors using the cross-modal Alignment and Correspondence score (AC score). Through extensive experiments involving thirteen different vision representation settings and evaluations across eight benchmarks, we find that the AC score is linearly correlated to model performance. By leveraging this relationship, we are able to identify and train the optimal vision representation only, which does not require finetuning the language model every time, resulting in a 99.7% reduction in computational cost.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における「視覚表現の法」について述べる。
クロスモーダルアライメント, 視覚表現の対応, MLLM性能の組合せは強い相関関係を示す。
クロスモーダルアライメントと対応スコア(ACスコア)を用いて2つの因子を定量化する。
8つのベンチマークにおいて、13の異なる視覚表現設定と評価を含む広範囲な実験により、ACスコアがモデル性能と線形に相関していることが判明した。
この関係を利用することで、最適な視覚表現を識別し、訓練することができるが、言語モデルを微調整する必要がないため、計算コストは99.7%削減される。
関連論文リスト
- Generate, Transduct, Adapt: Iterative Transduction with VLMs [22.515832864485024]
GTA-CLIPは,言語と視覚空間における共同翻訳のための言語モデルからの監督を取り入れた新しい手法である。
アプローチは反復的であり, (i) 言語モデルをクエリすることで属性空間を漸進的に探索すること, (ii) 属性拡張型トランスダクティブ推論手順, (iii) データセット内の推論ラベルに基づいて言語と視覚エンコーダを微調整すること,の3段階からなる。
論文 参考訳(メタデータ) (2025-01-10T15:07:57Z) - Scaling Capability in Token Space: An Analysis of Large Vision Language Model [27.59879939490807]
視覚言語モデルにおける視覚トークン数と性能の関係について検討する。
また,ユーザの質問を視覚トークンと統合する融合機構の影響についても検討する。
論文 参考訳(メタデータ) (2024-12-24T12:20:24Z) - Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。