論文の概要: Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition
- arxiv url: http://arxiv.org/abs/2601.04752v1
- Date: Thu, 08 Jan 2026 09:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.133041
- Title: Skeletonization-Based Adversarial Perturbations on Large Vision Language Model's Mathematical Text Recognition
- Title(参考訳): 骨格化に基づく大規模視覚言語モデルの数学的テキスト認識における逆摂動
- Authors: Masatomo Yoshida, Haruto Namura, Nicola Adami, Masahiro Okuda,
- Abstract要約: 本研究は, 新たな敵攻撃手法を導入することにより, 基礎モデルの視覚的能力と限界について検討する。
本手法は,テキストを含む画像,特に数式画像を対象としている。
- 参考スコア(独自算出の注目度): 2.729898906885749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the visual capabilities and limitations of foundation models by introducing a novel adversarial attack method utilizing skeletonization to reduce the search space effectively. Our approach specifically targets images containing text, particularly mathematical formula images, which are more challenging due to their LaTeX conversion and intricate structure. We conduct a detailed evaluation of both character and semantic changes between original and adversarially perturbed outputs to provide insights into the models' visual interpretation and reasoning abilities. The effectiveness of our method is further demonstrated through its application to ChatGPT, which shows its practical implications in real-world scenarios.
- Abstract(参考訳): 本研究は,骨格化を利用した新たな敵攻撃手法を導入することにより,基礎モデルの視覚的能力と限界を探求し,探索空間を効果的に削減する。
提案手法は,テキストを含む画像,特に数式画像を対象としており,LaTeX変換と複雑な構造のため,より困難である。
本研究は,モデルの視覚的解釈と推論能力に関する洞察を提供するために,原文と逆順に摂動された出力の性格的変化と意味的変化の双方を詳細に評価する。
本手法の有効性は,ChatGPTへの応用を通じてさらに実証され,実世界のシナリオにおけるその実践的影響を示す。
関連論文リスト
- Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models [0.609170287691728]
本稿では,視覚言語モデルにおける図形画像の理解を高めるための新しい訓練パラダイムを提案する。
本手法により, より構造化され, セマンティックに整合した図形内容の理解が構築できる。
論文 参考訳(メタデータ) (2025-09-02T05:02:23Z) - Conceptual Contrastive Edits in Textual and Vision-Language Retrieval [1.8591405259852054]
我々は、検索モデルの表現に印字された注目すべきパターンやバイアスを明らかにするために、ポストホックな概念的コントラスト編集を用いる。
我々はこれらの編集をブラックボックス方式で言語的および言語学的事前学習モデルの両方を説明するために応用する。
また、モデル結果に対する対照的な介入による単語ごとの影響を評価するための新しい指標も導入する。
論文 参考訳(メタデータ) (2025-03-01T10:14:28Z) - Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。
本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。
得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文 参考訳(メタデータ) (2025-02-19T21:30:51Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Auto-Encoding Variational Bayes for Inferring Topics and Visualization [2.132096006921048]
ビジュアライゼーションとトピックモデリングは、テキスト分析のアプローチとして広く使われている。
近年のアプローチでは、生成モデルを用いてトピックと可視化を共同で発見する手法が提案されている。
提案手法は,自動変分ベイズをベースとした自動変分ベイズ推定手法で,トピックと可視化を共同で推定する手法である。
論文 参考訳(メタデータ) (2020-10-19T05:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。