論文の概要: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
- arxiv url: http://arxiv.org/abs/2501.02669v1
- Date: Sun, 05 Jan 2025 21:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:57.358445
- Title: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
- Title(参考訳): VLMにおけるモダリティの不均衡を緩和できるのか?
- Authors: Simon Park, Abhishek Panigrahi, Yun Cheng, Dingli Yu, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
- 参考スコア(独自算出の注目度): 48.41029452721923
- License:
- Abstract: While Vision Language Models (VLMs) are impressive in tasks such as visual question answering (VQA) and image captioning, their ability to apply multi-step reasoning to images has lagged, giving rise to perceptions of modality imbalance or brittleness. Towards systematic study of such issues, we introduce a synthetic framework for assessing the ability of VLMs to perform algorithmic visual reasoning (AVR), comprising three tasks: Table Readout, Grid Navigation, and Visual Analogy. Each has two levels of difficulty, SIMPLE and HARD, and even the SIMPLE versions are difficult for frontier VLMs. We seek strategies for training on the SIMPLE version of the tasks that improve performance on the corresponding HARD task, i.e., S2H generalization. This synthetic framework, where each task also has a text-only version, allows a quantification of the modality imbalance, and how it is impacted by training strategy. Ablations highlight the importance of explicit image-to-text conversion in promoting S2H generalization when using auto-regressive training. We also report results of mechanistic study of this phenomenon, including a measure of gradient alignment that seems to identify training strategies that promote better S2H generalization.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚的質問応答(VQA)やイメージキャプションといったタスクにおいて印象的だが、画像に多段階推論を適用する能力は低下し、モダリティの不均衡や脆さの認識がもたらされる。
このような課題を体系的に研究するために、テーブル読み出し、グリッドナビゲーション、ビジュアルアナロジーの3つのタスクからなるアルゴリズム的視覚推論(AVR)を行うVLMの能力を評価するための合成フレームワークを導入する。
SIMPLEとHARDの2つの難易度があり、SIMPLEバージョンでさえフロンティアVLMでは難しい。
我々は,対応するHARDタスク,すなわちS2H一般化の性能を向上させるタスクのSIMPLEバージョンでのトレーニング戦略を模索する。
各タスクがテキストのみのバージョンを持つこの合成フレームワークは、モダリティの不均衡の定量化と、それがトレーニング戦略にどのように影響するかを可能にする。
アブレーションは、自動回帰トレーニングを使用する場合、S2Hの一般化を促進する上で、明示的な画像からテキストへの変換の重要性を強調している。
また,S2Hの一般化を促進するためのトレーニング戦略を同定したと考えられる勾配アライメントの測定を含む,この現象の力学的研究結果を報告する。
関連論文リスト
- Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Winning the ICCV'2021 VALUE Challenge: Task-aware Ensemble and Transfer
Learning with Visual Concepts [20.412239939287886]
VALUE(Video-And-Language Understanding Evaluation)ベンチマークが新たに導入され,マルチモーダル表現学習アルゴリズムの評価と解析が行われている。
VALUEの課題の主な目的は、異なる特徴を持つ様々なタスクに同時に適用可能なタスクに依存しないモデルをトレーニングすることである。
本稿では,1)単一モデル最適化,2)視覚概念を用いた伝達学習,3)タスク認識アンサンブルについて述べる。
論文 参考訳(メタデータ) (2021-10-13T03:50:07Z) - Large-Scale Adversarial Training for Vision-and-Language Representation
Learning [81.76089876263175]
VILLAは視覚と言語(V+L)表現学習のための大規模対人訓練における最初の試みである。
VILLAは2つの訓練段階から構成される: (i) タスクに依存しない対人事前訓練、および (ii) タスク固有の対人微調整である。
論文 参考訳(メタデータ) (2020-06-11T05:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。