論文の概要: VACoT: Rethinking Visual Data Augmentation with VLMs
- arxiv url: http://arxiv.org/abs/2512.02361v1
- Date: Tue, 02 Dec 2025 03:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.698459
- Title: VACoT: Rethinking Visual Data Augmentation with VLMs
- Title(参考訳): VACoT: VLMによるビジュアルデータ拡張の再考
- Authors: Zhengzhuo Xu, Chong Sun, SiNan Du, Chen Li, Jing Lyu, Chun Yuan,
- Abstract要約: Visual Augmentation Chain-of-Thought(VACoT)は、モデル推論中の画像拡張を動的に実行するフレームワークである。
VACoTは、特にOCR関連の敵シナリオにおいて、挑戦的およびアウト・オブ・ディストリビューションな入力に対する堅牢性を大幅に改善する。
本稿では,冗長応答をペナルティ化しながら,必要な増大を促す条件付き報酬方式を提案する。
- 参考スコア(独自算出の注目度): 47.68285534481867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While visual data augmentation remains a cornerstone for training robust vision models, it has received limited attention in visual language models (VLMs), which predominantly rely on large-scale real data acquisition or synthetic diversity. Consequently, they may struggle with basic perception tasks that conventional models handle reliably. Given the substantial cost of pre-training and fine-tuning VLMs, continue training on augmented data yields limited and diminishing returns. In this paper, we present Visual Augmentation Chain-of-Thought (VACoT), a framework that dynamically invokes image augmentations during model inference. By incorporating post-hoc transformations such as denoising, VACoT substantially improves robustness on challenging and out-of-distribution inputs, especially in OCR-related adversarial scenarios. Distinct from prior approaches limited to local cropping, VACoT integrates a structured collection of general visual augmentations, broadening the query image views while reducing training complexity and computational overhead with efficient agentic reinforcement learning. We propose a conditional reward scheme that encourages necessary augmentation while penalizing verbose responses, ensuring concise and effective reasoning in perception tasks. We demonstrate the superiority of VACoT with extensive experiments on 13 perception benchmarks and further introduce AdvOCR to highlight the generalization benefits of post-hoc visual augmentations in adversarial scenarios.
- Abstract(参考訳): 視覚データ拡張は、堅牢な視覚モデルのトレーニングの基盤として依然として残っているが、大規模な実データ取得や合成多様性に大きく依存する視覚言語モデル(VLM)では、あまり注目されていない。
その結果、従来のモデルが確実に扱う基本的な知覚タスクに苦労する可能性がある。
VLMの事前訓練と微調整のかなりのコストを考えると、強化されたデータに対するトレーニングは制限され、リターンは減少する。
本稿では,モデル推論中の画像拡張を動的に実行するフレームワークであるVisual Augmentation Chain-of-Thought(VACoT)を提案する。
デノナイジングのようなポストホック変換を導入することで、VACoTは特にOCR関連の敵シナリオにおいて、挑戦的およびアウト・オブ・ディストリビューションな入力に対するロバスト性を大幅に改善する。
VACoTは、局所的な収穫に制限された以前のアプローチと異なり、一般的な視覚的拡張の構造化されたコレクションを統合し、クエリイメージビューを拡張しながら、効率的なエージェント強化学習によって、トレーニングの複雑さと計算オーバーヘッドを低減している。
文節応答をペナルティ化しながら、必要な補足を促す条件付き報酬方式を提案し、知覚タスクにおける簡潔で効果的な推論を確実にする。
VACoTの優位性を13の知覚ベンチマークで広範な実験で示し、さらにAdvOCRを導入して、対向シナリオにおけるポストホック視覚拡張の一般化の利点を強調した。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。