論文の概要: GELDA: A generative language annotation framework to reveal visual
biases in datasets
- arxiv url: http://arxiv.org/abs/2311.18064v1
- Date: Wed, 29 Nov 2023 20:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:49:58.734628
- Title: GELDA: A generative language annotation framework to reveal visual
biases in datasets
- Title(参考訳): GELDA:データセットの視覚的バイアスを明らかにするジェネレーティブ言語アノテーションフレームワーク
- Authors: Krish Kabra, Kathleen M. Lewis, Guha Balakrishnan
- Abstract要約: バイアス分析は、コンピュータビジョンモデルのトレーニングと評価のための公正なデータセットを作成するプロセスにおける重要なステップである。
本稿では,GELDAを提案する。GELDAは大規模生成言語モデルを利用して,ドメインに対する様々な属性の提案とラベル付けを行うフレームワークである。
実際のデータセットの結果から、GELDAは正確で多様な視覚的属性の提案を生成し、クラスラベルと背景特徴の一致などのバイアスを明らかにすることができる。
- 参考スコア(独自算出の注目度): 7.3146656260578276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bias analysis is a crucial step in the process of creating fair datasets for
training and evaluating computer vision models. The bottleneck in dataset
analysis is annotation, which typically requires: (1) specifying a list of
attributes relevant to the dataset domain, and (2) classifying each
image-attribute pair. While the second step has made rapid progress in
automation, the first has remained human-centered, requiring an experimenter to
compile lists of in-domain attributes. However, an experimenter may have
limited foresight leading to annotation "blind spots," which in turn can lead
to flawed downstream dataset analyses. To combat this, we propose GELDA, a
nearly automatic framework that leverages large generative language models
(LLMs) to propose and label various attributes for a domain. GELDA takes a
user-defined domain caption (e.g., "a photo of a bird," "a photo of a living
room") and uses an LLM to hierarchically generate attributes. In addition,
GELDA uses the LLM to decide which of a set of vision-language models (VLMs) to
use to classify each attribute in images. Results on real datasets show that
GELDA can generate accurate and diverse visual attribute suggestions, and
uncover biases such as confounding between class labels and background
features. Results on synthetic datasets demonstrate that GELDA can be used to
evaluate the biases of text-to-image diffusion models and generative
adversarial networks. Overall, we show that while GELDA is not accurate enough
to replace human annotators, it can serve as a complementary tool to help
humans analyze datasets in a cheap, low-effort, and flexible manner.
- Abstract(参考訳): バイアス分析は、コンピュータビジョンモデルのトレーニングと評価のための公正なデータセットを作成するプロセスにおける重要なステップである。
データセット分析のボトルネックは、(1)データセットドメインに関連する属性のリストを指定すること、(2)各イメージ属性ペアを分類すること、である。
第2段階は自動化の急速な進歩を遂げたが、第1段階は人間中心のままであり、実験者はドメイン内の属性のリストをコンパイルする必要がある。
しかし、実験者は、アノテーションの"盲点"に繋がる視野が限られており、結果として下流のデータセット分析の欠陥につながる可能性がある。
そこで本稿では,大規模生成言語モデル(LLM)を利用した,ドメインのさまざまな属性の提案とラベル付けを行う,ほぼ自動的なフレームワークであるGELDAを提案する。
GELDAは、ユーザーが定義したドメインキャプション(例えば、鳥の写真、リビングルームの写真)を取り、LCMを使用して階層的に属性を生成する。
さらに、GELDAはLLMを使用して視覚言語モデル(VLM)のどれかを決め、それぞれの属性を画像に分類する。
実際のデータセットの結果から、GELDAは正確で多様な視覚的属性の提案を生成し、クラスラベルと背景特徴の一致などのバイアスを明らかにすることができる。
合成データセットの結果から,GELDAはテキスト間拡散モデルと生成対向ネットワークのバイアスを評価するのに有用であることが示された。
全体として、GELDAは人間のアノテーションを置き換えるほど正確ではないが、人間が安価で低便で柔軟な方法でデータセットを分析するのに役立つ補完ツールとして機能することを示している。
関連論文リスト
- TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - ASPIRE: Language-Guided Augmentation for Robust Image Classification [45.18975613672963]
ASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)は,合成画像によるトレーニングデータセットの拡張において,素早い特徴を伴わずに有効な方法である。
まず、画像のテキスト記述から前景や背景の特徴を抽出し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。
最後に,テキスト・ツー・イメージ生成モデルをパーソナライズして,刺激的な特徴を伴わない多様なドメイン内画像を生成する。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。