論文の概要: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
- arxiv url: http://arxiv.org/abs/2501.02669v1
- Date: Sun, 05 Jan 2025 21:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:57.358445
- Title: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
- Title(参考訳): VLMにおけるモダリティの不均衡を緩和できるのか?
- Authors: Simon Park, Abhishek Panigrahi, Yun Cheng, Dingli Yu, Anirudh Goyal, Sanjeev Arora,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
- 参考スコア(独自算出の注目度): 48.41029452721923
- License:
- Abstract: While Vision Language Models (VLMs) are impressive in tasks such as visual question answering (VQA) and image captioning, their ability to apply multi-step reasoning to images has lagged, giving rise to perceptions of modality imbalance or brittleness. Towards systematic study of such issues, we introduce a synthetic framework for assessing the ability of VLMs to perform algorithmic visual reasoning (AVR), comprising three tasks: Table Readout, Grid Navigation, and Visual Analogy. Each has two levels of difficulty, SIMPLE and HARD, and even the SIMPLE versions are difficult for frontier VLMs. We seek strategies for training on the SIMPLE version of the tasks that improve performance on the corresponding HARD task, i.e., S2H generalization. This synthetic framework, where each task also has a text-only version, allows a quantification of the modality imbalance, and how it is impacted by training strategy. Ablations highlight the importance of explicit image-to-text conversion in promoting S2H generalization when using auto-regressive training. We also report results of mechanistic study of this phenomenon, including a measure of gradient alignment that seems to identify training strategies that promote better S2H generalization.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚的質問応答(VQA)やイメージキャプションといったタスクにおいて印象的だが、画像に多段階推論を適用する能力は低下し、モダリティの不均衡や脆さの認識がもたらされる。
このような課題を体系的に研究するために、テーブル読み出し、グリッドナビゲーション、ビジュアルアナロジーの3つのタスクからなるアルゴリズム的視覚推論(AVR)を行うVLMの能力を評価するための合成フレームワークを導入する。
SIMPLEとHARDの2つの難易度があり、SIMPLEバージョンでさえフロンティアVLMでは難しい。
我々は,対応するHARDタスク,すなわちS2H一般化の性能を向上させるタスクのSIMPLEバージョンでのトレーニング戦略を模索する。
各タスクがテキストのみのバージョンを持つこの合成フレームワークは、モダリティの不均衡の定量化と、それがトレーニング戦略にどのように影響するかを可能にする。
アブレーションは、自動回帰トレーニングを使用する場合、S2Hの一般化を促進する上で、明示的な画像からテキストへの変換の重要性を強調している。
また,S2Hの一般化を促進するためのトレーニング戦略を同定したと考えられる勾配アライメントの測定を含む,この現象の力学的研究結果を報告する。
関連論文リスト
- Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
VLM(Vision-Language Models)は、様々なタスク(画像テキスト検索、視覚的質問応答など)において強力なパフォーマンスを実現している。
本稿では,付加的な監督を伴わずに VLM トレーニングを強化する階層的構造化学習 (HIST) を提案する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。