論文の概要: Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring
- arxiv url: http://arxiv.org/abs/2506.08429v1
- Date: Tue, 10 Jun 2025 04:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.457493
- Title: Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring
- Title(参考訳): 少ないデータによるより良い推論:統一モダリティスコーリングによるVLMの強化
- Authors: Mingjie Xu, Andrew Estornell, Hongzheng Yang, Yuzhi Zhao, Zhaowei Zhu, Qi Xuan, Jiaheng Wei,
- Abstract要約: 視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。
クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。
一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
- 参考スコア(独自算出の注目度): 26.174094671736686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of visual instruction tuning and other post-training techniques has significantly enhanced the capabilities of Large Language Models (LLMs) in visual understanding, enriching Vision-Language Models (VLMs) with more comprehensive visual language datasets. However, the effectiveness of VLMs is highly dependent on large-scale, high-quality datasets that ensure precise recognition and accurate reasoning. Two key challenges hinder progress: (1) noisy alignments between images and the corresponding text, which leads to misinterpretation, and (2) ambiguous or misleading text, which obscures visual content. To address these challenges, we propose SCALE (Single modality data quality and Cross modality Alignment Evaluation), a novel quality-driven data selection pipeline for VLM instruction tuning datasets. Specifically, SCALE integrates a cross-modality assessment framework that first assigns each data entry to its appropriate vision-language task, generates general and task-specific captions (covering scenes, objects, style, etc.), and evaluates the alignment, clarity, task rarity, text coherence, and image clarity of each entry based on the generated captions. We reveal that: (1) current unimodal quality assessment methods evaluate one modality while overlooking the rest, which can underestimate samples essential for specific tasks and discard the lower-quality instances that help build model robustness; and (2) appropriately generated image captions provide an efficient way to transfer the image-text multimodal task into a unified text modality.
- Abstract(参考訳): ビジュアルインストラクションチューニングやその他のポストトレーニング技術の適用により、視覚理解におけるLarge Language Models(LLM)の機能を大幅に強化し、より包括的なビジュアル言語データセットを備えたVLM(Vision-Language Models)が強化された。
しかしながら、VLMの有効性は、正確な認識と正確な推論を保証する大規模で高品質なデータセットに大きく依存している。
1)画像と対応するテキスト間の雑音的なアライメント,(2)視覚的内容の曖昧さや誤解を招くテキスト,の2つの主要な課題が進展を妨げる。
これらの課題に対処するため、本研究では、VLM命令チューニングデータセットのための新しい品質駆動型データ選択パイプラインであるSCALE(Single modality data quality and Cross modality Alignment Evaluation)を提案する。
特に、SCALEは、まず、各データエントリを適切な視覚言語タスクに割り当て、一般的なおよびタスク固有のキャプション(シーン、オブジェクト、スタイルなど)を生成し、生成されたキャプションに基づいて、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像クオリティを評価する、モダリティアセスメントフレームワークを統合する。
筆者らは,(1)現在行われている一元的品質評価手法は,特定のタスクに不可欠なサンプルを過小評価し,モデルロバスト性構築に役立つ低品質のインスタンスを廃棄し,(2)画像キャプションを適切に生成することにより,画像テキストのマルチモーダルタスクを統一されたテキストモダリティに転送する効率的な方法を提供する。
関連論文リスト
- Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。