論文の概要: Uncovering Bias in Large Vision-Language Models with Counterfactuals
- arxiv url: http://arxiv.org/abs/2404.00166v2
- Date: Fri, 7 Jun 2024 23:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:34:14.931594
- Title: Uncovering Bias in Large Vision-Language Models with Counterfactuals
- Title(参考訳): 実測値を持つ大規模視覚言語モデルにおけるバイアスの発見
- Authors: Phillip Howard, Anahita Bhiwandiwalla, Kathleen C. Fraser, Svetlana Kiritchenko,
- Abstract要約: 大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。
異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。
入力画像に表現される人種,性別,身体的特徴などの社会的特性は,有毒度や有能な関連語の発生に大きく影響することがわかった。
- 参考スコア(独自算出の注目度): 8.414108895243148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images. Specifically, we present LVLMs with identical open-ended text prompts while conditioning on images from different counterfactual sets, where each set contains images which are largely identical in their depiction of a common subject (e.g., a doctor), but vary only in terms of intersectional social attributes (e.g., race and gender). We comprehensively evaluate the text produced by different LVLMs under this counterfactual generation setting and find that social attributes such as race, gender, and physical characteristics depicted in input images can significantly influence toxicity and the generation of competency-associated words.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は,LVLM(Large Vision-Language Models)を視覚的入力で拡張するために提案されている。
このようなモデル条件は入力画像とテキストプロンプトの両方にテキストを生成し、視覚的質問応答やマルチモーダルチャットなどのさまざまなユースケースを可能にする。
以前の研究では、LLMが生成するテキストに含まれる社会的バイアスについて検討されてきたが、この話題はLVLMでは比較的研究されていない。
LVLMの社会的偏見を調べることは、テキストや視覚的モダリティに含まれる情報によって引き起こされる偏見の相違により特に困難である。
この課題に対処するため,異なるLVLMによって生成されたテキストを,入力画像の反実的変化下で大規模に研究する。
具体的には、異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提示する。それぞれのセットは、共通の対象(例えば、医師)の描写とほとんど同一であるが、交叉的な社会的属性(例えば、人種、性別)の点でのみ異なる画像を含む。
本研究では, 異なるLVLMが生成するテキストを, この逆生成環境下で包括的に評価し, 入力画像に表される人種, 性別, 身体的特徴などの社会的属性が有毒性や有能な関連語の生成に大きく影響することを見出した。
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals [8.41410889524315]
大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。
異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。
我々は,この逆ファクト・ジェネレーション・セッティングに基づいて,様々なモデルが生成したテキストを大規模に評価し,一般的なLVLMから5700万以上の応答を生成する。
論文 参考訳(メタデータ) (2024-05-30T15:27:56Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。