論文の概要: Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models
- arxiv url: http://arxiv.org/abs/2507.20704v1
- Date: Mon, 28 Jul 2025 10:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.084505
- Title: Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models
- Title(参考訳): Text2VLM:ビジュアル言語モデルにおけるアライメントトレーニングの評価にテキスト専用データセットを適用する
- Authors: Gabriel Downer, Sean Craven, Damian Ruck, Jake Thomas,
- Abstract要約: 既存の評価データセットはテキストのみのプロンプトに傾き、視覚的脆弱性を評価下に置きます。
テキストのみのデータセットをマルチモーダル形式に適応させる,新しいマルチステージパイプラインであるText2VLMを提案する。
Text2VLMは、包括的な安全性評価のためのスケーラブルなツールを提供し、Visual Language Modelsのより堅牢な安全性メカニズムの開発に貢献している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing integration of Visual Language Models (VLMs) into AI systems necessitates robust model alignment, especially when handling multimodal content that combines text and images. Existing evaluation datasets heavily lean towards text-only prompts, leaving visual vulnerabilities under evaluated. To address this gap, we propose \textbf{Text2VLM}, a novel multi-stage pipeline that adapts text-only datasets into multimodal formats, specifically designed to evaluate the resilience of VLMs against typographic prompt injection attacks. The Text2VLM pipeline identifies harmful content in the original text and converts it into a typographic image, creating a multimodal prompt for VLMs. Also, our evaluation of open-source VLMs highlights their increased susceptibility to prompt injection when visual inputs are introduced, revealing critical weaknesses in the current models' alignment. This is in addition to a significant performance gap compared to closed-source frontier models. We validate Text2VLM through human evaluations, ensuring the alignment of extracted salient concepts; text summarization and output classification align with human expectations. Text2VLM provides a scalable tool for comprehensive safety assessment, contributing to the development of more robust safety mechanisms for VLMs. By enhancing the evaluation of multimodal vulnerabilities, Text2VLM plays a role in advancing the safe deployment of VLMs in diverse, real-world applications.
- Abstract(参考訳): ビジュアル言語モデル(VLM)がAIシステムに統合されるにつれ、特にテキストとイメージを組み合わせたマルチモーダルコンテンツを扱う場合には、堅牢なモデルアライメントが必要になる。
既存の評価データセットは、テキストのみのプロンプトに大きく依存し、視覚的脆弱性を評価下に置きます。
このギャップに対処するために,テキストのみのデータセットをマルチモーダル形式に適応する新しいマルチステージパイプラインである \textbf{Text2VLM} を提案する。
Text2VLMパイプラインは、原文中の有害な内容を識別し、それをタイポグラフィ画像に変換し、VLMのマルチモーダルプロンプトを生成する。
また、オープンソースのVLMの評価では、視覚入力が導入されたときのインジェクションに対する感受性の向上が強調され、現在のモデルのアライメントにおける重大な弱点が明らかになった。
これはクローズドソースのフロンティアモデルと比較して、大きなパフォーマンスギャップである。
人間の評価を通じてテキスト2VLMを検証し、抽出された健全な概念、テキスト要約と出力分類を人間の期待と一致させる。
Text2VLMは、包括的な安全性評価のためのスケーラブルなツールを提供し、VLMのより堅牢な安全性メカニズムの開発に貢献している。
マルチモーダル脆弱性の評価を強化することで、Text2VLMは、多様な現実世界のアプリケーションにおいて、VLMの安全なデプロイを促進する役割を担っている。
関連論文リスト
- Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文 参考訳(メタデータ) (2025-07-28T16:59:53Z) - PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language Models [17.522361689805724]
視覚言語モデル(VLM)は、ユーザーが作成したテキストプロンプトと視覚入力に応答する。
VLMがこの不安定性を様々なプロンプトに継承するかどうかを判断することが重要である。
本稿では, PARC (Prompt Analysis via Reliability and agnostic) について紹介する。
論文 参考訳(メタデータ) (2025-06-03T19:42:32Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - TrojVLM: Backdoor Attack Against Vision Language Models [50.87239635292717]
本研究では、視覚言語モデル(VLM)を対象としたバックドアアタックの最初の調査であるTrojVLMを紹介する。
TrojVLMは、有毒な画像に遭遇したとき、所定のターゲットテキストを出力テキストに挿入する。
画像内容のセマンティックな整合性を確保するために,新たなセマンティック保存損失を提案する。
論文 参考訳(メタデータ) (2024-09-28T04:37:09Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。