Fugu-MT 論文翻訳(概要): Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

論文の概要: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

arxiv url: http://arxiv.org/abs/2501.02669v1
Date: Sun, 05 Jan 2025 21:36:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.601714
Title: Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?
Title（参考訳）: VLMにおけるモダリティの不均衡を緩和できるのか?
Authors: Simon Park, Abhishek Panigrahi, Yun Cheng, Dingli Yu, Anirudh Goyal, Sanjeev Arora,
Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
参考スコア（独自算出の注目度）: 48.41029452721923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Vision Language Models (VLMs) are impressive in tasks such as visual question answering (VQA) and image captioning, their ability to apply multi-step reasoning to images has lagged, giving rise to perceptions of modality imbalance or brittleness. Towards systematic study of such issues, we introduce a synthetic framework for assessing the ability of VLMs to perform algorithmic visual reasoning (AVR), comprising three tasks: Table Readout, Grid Navigation, and Visual Analogy. Each has two levels of difficulty, SIMPLE and HARD, and even the SIMPLE versions are difficult for frontier VLMs. We seek strategies for training on the SIMPLE version of the tasks that improve performance on the corresponding HARD task, i.e., S2H generalization. This synthetic framework, where each task also has a text-only version, allows a quantification of the modality imbalance, and how it is impacted by training strategy. Ablations highlight the importance of explicit image-to-text conversion in promoting S2H generalization when using auto-regressive training. We also report results of mechanistic study of this phenomenon, including a measure of gradient alignment that seems to identify training strategies that promote better S2H generalization.
Abstract（参考訳）: 視覚言語モデル(VLM)は視覚的質問応答(VQA)やイメージキャプションといったタスクにおいて印象的だが、画像に多段階推論を適用する能力は低下し、モダリティの不均衡や脆さの認識がもたらされる。このような課題を体系的に研究するために、テーブル読み出し、グリッドナビゲーション、ビジュアルアナロジーの3つのタスクからなるアルゴリズム的視覚推論(AVR)を行うVLMの能力を評価するための合成フレームワークを導入する。 SIMPLEとHARDの2つの難易度があり、SIMPLEバージョンでさえフロンティアVLMでは難しい。我々は,対応するHARDタスク,すなわちS2H一般化の性能を向上させるタスクのSIMPLEバージョンでのトレーニング戦略を模索する。各タスクがテキストのみのバージョンを持つこの合成フレームワークは、モダリティの不均衡の定量化と、それがトレーニング戦略にどのように影響するかを可能にする。アブレーションは、自動回帰トレーニングを使用する場合、S2Hの一般化を促進する上で、明示的な画像からテキストへの変換の重要性を強調している。また,S2Hの一般化を促進するためのトレーニング戦略を同定したと考えられる勾配アライメントの測定を含む,この現象の力学的研究結果を報告する。

関連論文リスト

Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning [49.07442840323135]
そこで本研究では,Q-Adaptという,知覚指向型命令チューニングのための新しいパラダイムを提案する。提案したQ-Adaptは、軽量な視覚的品質評価器を実現し、同等の性能を示す。
論文参考訳（メタデータ） (2025-04-02T12:02:57Z)
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳（メタデータ） (2025-02-17T06:54:49Z)
Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
VLM(Vision-Language Models)は、様々なタスク(画像テキスト検索、視覚的質問応答など)において強力なパフォーマンスを実現している。本稿では,付加的な監督を伴わずに VLM トレーニングを強化する階層的構造化学習 (HIST) を提案する。
論文参考訳（メタデータ） (2024-12-11T05:36:18Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。 MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文参考訳（メタデータ） (2024-04-22T21:59:35Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文参考訳（メタデータ） (2023-06-15T03:26:28Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。