Fugu-MT 論文翻訳(概要): Red Teaming Visual Language Models

論文の概要: Red Teaming Visual Language Models

arxiv url: http://arxiv.org/abs/2401.12915v1
Date: Tue, 23 Jan 2024 17:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 14:54:24.226840
Title: Red Teaming Visual Language Models
Title（参考訳）: レッドチームによるビジュアル言語モデル
Authors: Mukai Li and Lei Li and Yuwei Yin and Masood Ahmed and Zhenguang Liu and Qi Liu
Abstract要約: 我々は,4つの主要な側面(忠実さ,プライバシ,安全,公正さ)の下に10のサブタスクを含む,新しいレッド・チーム・データセットRTVLMを提案する。詳細な分析によると、オープンソースの10の有名なVLMは、異なる度合いでレッドチームと戦っており、GPT-4Vと最大31%のパフォーマンスギャップがある。 RTVLMを用いたLLaVA-v1.5とスーパーバイザードファインチューニング(SFT)を併用するだけで、RTVLMテストセットで10%、MM-Halで13%、MM-Benchで顕著に低下しないモデルの性能が向上する。
参考スコア（独自算出の注目度）: 30.186149224773974
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.
Abstract（参考訳）: VLM(Vision-Language Models)は、マルチモーダル入力を受け入れるためにLLM(Large Language Models)の機能を拡張する。 LLMが特定のテストケース(Red Teamingと呼ばれる)を通じて有害または不正確なコンテンツを生成することが検証されているので、VLMが同様のシナリオ、特にテキストとビジュアルの入力の組み合わせでどのように機能するかは疑問である。この問題を解決するために,我々は,4つの主要な側面(ファシフルネス,プライバシ,安全性,フェアネス)の下で10のサブタスク(イメージミスリーディング,マルチモーダル脱獄,フェイスフェアネスなど)を包含する,新しいレッド・チーム・データセットrtvlmを提案する。我々のRTVLMは、これらの4つの異なる側面から現在のVLMをベンチマークする最初の赤チームデータセットです。詳細な分析によると、オープンソースの10の有名なVLMは、異なるレベルのレッドチームで苦労し、GPT-4Vと最大31%のパフォーマンスギャップを持つ。さらに, RTVLM を用いて, LLaVA-v1.5 と Supervised Fine-tuning (SFT) を併用することで, RTVLM テストセットで10%, MM-Hal で13%, MM-Bench で13%, MM-Bench で顕著に低下せず, 通常のアライメントデータを用いた他の LLaVA ベースモデルをオーバーパスする。これは、現在のオープンソースVLMにはまだレッドチームアライメントがないことを示している。コードとデータセットはオープンソースになります。

関連論文リスト

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文参考訳（メタデータ） (2025-06-18T17:59:49Z)
Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context [0.16385815610837165]
視覚言語モデル(VLM)は大規模言語モデル(LLM)とともに急速に進歩している。本研究は,GPT-4.1 や Gemini 2.5 Pro などの卓越したVLMの病理組織像分類機能について検討した。
論文参考訳（メタデータ） (2025-06-15T01:50:16Z)
Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks [48.67303250592189]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文参考訳（メタデータ） (2025-01-30T11:10:46Z)
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。 GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文参考訳（メタデータ） (2024-12-02T18:58:25Z)
Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文参考訳（メタデータ） (2024-10-03T23:40:21Z)
LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension [45.856469849910496]
大規模言語モデル(LLM)を用いた参照表現(REC)タスクのための視覚言語モデル(VLM)の「ブラックボックス」適応法を提案する。 LLMはLLMの推論能力を活かし、軽微調整により改良され、参照表現にマッチする最も関連性の高いバウンディングボックスを選択する。当社のアプローチでは,内部動作へのアクセスを必要とせずに,クローズドソースモデルの適応を可能にするという,いくつかの利点がある。
論文参考訳（メタデータ） (2024-09-18T12:32:25Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail [8.04779839951237]
本稿では,視覚質問応答タスクにおける視覚言語モデル(VLM)の性能と限界について分析する。我々は、Retail-786kデータセットから得られたデータを用いて、事前訓練されたVLMの能力を調べ、画像内の広告商品に関する詳細な質問に答える。
論文参考訳（メタデータ） (2024-08-28T08:25:41Z)
Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文参考訳（メタデータ） (2024-08-09T20:55:46Z)
Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張するこれらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。 VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文参考訳（メタデータ） (2024-07-21T04:37:11Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)
SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-23T13:32:07Z)
The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文参考訳（メタデータ） (2024-01-23T01:25:00Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。