Fugu-MT 論文翻訳(概要): Improving the Efficiency of Visually Augmented Language Models

論文の概要: Improving the Efficiency of Visually Augmented Language Models

arxiv url: http://arxiv.org/abs/2409.11148v1
Date: Tue, 17 Sep 2024 13:02:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 16:45:13.794420
Title: Improving the Efficiency of Visually Augmented Language Models
Title（参考訳）: 視覚的に拡張された言語モデルの効率性向上
Authors: Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune,
Abstract要約: 本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。 BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
参考スコア（独自算出の注目度）: 5.948051066733892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the impressive performance of autoregressive Language Models (LM) it has been shown that due to reporting bias, LMs lack visual knowledge, i.e. they do not know much about the visual world and its properties. To augment LMs with visual knowledge, existing solutions often rely on explicit images, requiring time-consuming retrieval or image generation systems. This paper shows that explicit images are not necessary to visually augment an LM. Instead, we use visually-grounded text representations obtained from the well-known CLIP multimodal system. For a fair comparison, we modify VALM, a visually-augmented LM which uses image retrieval and representation, to work directly with visually-grounded text representations. We name this new model BLIND-VALM. We show that BLIND-VALM performs on par with VALM for Visual Language Understanding (VLU), Natural Language Understanding (NLU) and Language Modeling tasks, despite being significantly more efficient and simpler. We also show that scaling up our model within the compute budget of VALM, either increasing the model or pre-training corpus size, we outperform VALM for all the evaluation tasks.
Abstract（参考訳）: 自己回帰言語モデル(LM)の顕著な性能にもかかわらず、報告バイアスのため、LMには視覚的知識がないことが示されている。視覚的知識でLMを拡張するために、既存のソリューションはしばしば明示的なイメージに依存し、時間を要する検索や画像生成システムを必要とする。本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。公平な比較のために、画像検索と表現を用いた視覚拡張型LMであるVALMを修正し、視覚的に接地されたテキスト表現と直接連携する。我々はこの新しいモデル BLIND-VALM を命名する。 BLIND-VALM は VALM for Visual Language Understanding (VLU), Natural Language Understanding (NLU) および Language Modeling タスクと同等に動作するが, より効率的でシンプルである。また、VALMの計算予算内でモデルをスケールアップし、モデルの増加または事前学習コーパスサイズを向上し、全ての評価タスクにおいてVALMより優れていることを示す。

関連論文リスト

Visual Representations inside the Language Model [36.35124375782294]
本研究では,視覚情報の流れを言語モデルを用いて研究し,画像値トークンが十分な情報をエンコードし,認知度の高いタスクを遂行することを示した。入力された視覚エンコーディングのプロジェクションから受信した視覚情報を言語モデルで拡張するが、複数のタスクの視覚情報は同等の視覚エンコーダ(SigLIP)よりも少ない。次に、画像入力にテキストプレフィックスを追加することで、視覚表現の知覚能力を向上させることを示し、言語モデルにおける視覚情報制御について議論する。
論文参考訳（メタデータ） (2025-10-06T14:01:39Z)
Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文参考訳（メタデータ） (2025-03-30T16:41:12Z)
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文参考訳（メタデータ） (2025-02-19T18:05:42Z)
PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文参考訳（メタデータ） (2024-10-30T15:05:17Z)
Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-09-25T17:59:13Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。