Fugu-MT 論文翻訳(概要): GELDA: A generative language annotation framework to reveal visual biases in datasets

論文の概要: GELDA: A generative language annotation framework to reveal visual biases in datasets

arxiv url: http://arxiv.org/abs/2311.18064v1
Date: Wed, 29 Nov 2023 20:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 18:49:58.734628
Title: GELDA: A generative language annotation framework to reveal visual biases in datasets
Title（参考訳）: GELDA:データセットの視覚的バイアスを明らかにするジェネレーティブ言語アノテーションフレームワーク
Authors: Krish Kabra, Kathleen M. Lewis, Guha Balakrishnan
Abstract要約: バイアス分析は、コンピュータビジョンモデルのトレーニングと評価のための公正なデータセットを作成するプロセスにおける重要なステップである。本稿では,GELDAを提案する。GELDAは大規模生成言語モデルを利用して,ドメインに対する様々な属性の提案とラベル付けを行うフレームワークである。実際のデータセットの結果から、GELDAは正確で多様な視覚的属性の提案を生成し、クラスラベルと背景特徴の一致などのバイアスを明らかにすることができる。
参考スコア（独自算出の注目度）: 7.3146656260578276
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bias analysis is a crucial step in the process of creating fair datasets for training and evaluating computer vision models. The bottleneck in dataset analysis is annotation, which typically requires: (1) specifying a list of attributes relevant to the dataset domain, and (2) classifying each image-attribute pair. While the second step has made rapid progress in automation, the first has remained human-centered, requiring an experimenter to compile lists of in-domain attributes. However, an experimenter may have limited foresight leading to annotation "blind spots," which in turn can lead to flawed downstream dataset analyses. To combat this, we propose GELDA, a nearly automatic framework that leverages large generative language models (LLMs) to propose and label various attributes for a domain. GELDA takes a user-defined domain caption (e.g., "a photo of a bird," "a photo of a living room") and uses an LLM to hierarchically generate attributes. In addition, GELDA uses the LLM to decide which of a set of vision-language models (VLMs) to use to classify each attribute in images. Results on real datasets show that GELDA can generate accurate and diverse visual attribute suggestions, and uncover biases such as confounding between class labels and background features. Results on synthetic datasets demonstrate that GELDA can be used to evaluate the biases of text-to-image diffusion models and generative adversarial networks. Overall, we show that while GELDA is not accurate enough to replace human annotators, it can serve as a complementary tool to help humans analyze datasets in a cheap, low-effort, and flexible manner.
Abstract（参考訳）: バイアス分析は、コンピュータビジョンモデルのトレーニングと評価のための公正なデータセットを作成するプロセスにおける重要なステップである。データセット分析のボトルネックは、(1)データセットドメインに関連する属性のリストを指定すること、(2)各イメージ属性ペアを分類すること、である。第2段階は自動化の急速な進歩を遂げたが、第1段階は人間中心のままであり、実験者はドメイン内の属性のリストをコンパイルする必要がある。しかし、実験者は、アノテーションの"盲点"に繋がる視野が限られており、結果として下流のデータセット分析の欠陥につながる可能性がある。そこで本稿では,大規模生成言語モデル(LLM)を利用した,ドメインのさまざまな属性の提案とラベル付けを行う,ほぼ自動的なフレームワークであるGELDAを提案する。 GELDAは、ユーザーが定義したドメインキャプション(例えば、鳥の写真、リビングルームの写真)を取り、LCMを使用して階層的に属性を生成する。さらに、GELDAはLLMを使用して視覚言語モデル(VLM)のどれかを決め、それぞれの属性を画像に分類する。実際のデータセットの結果から、GELDAは正確で多様な視覚的属性の提案を生成し、クラスラベルと背景特徴の一致などのバイアスを明らかにすることができる。合成データセットの結果から,GELDAはテキスト間拡散モデルと生成対向ネットワークのバイアスを評価するのに有用であることが示された。全体として、GELDAは人間のアノテーションを置き換えるほど正確ではないが、人間が安価で低便で柔軟な方法でデータセットを分析するのに役立つ補完ツールとして機能することを示している。

関連論文リスト

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文参考訳（メタデータ） (2025-08-01T18:19:51Z)
Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2024-09-04T11:19:17Z)
Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文参考訳（メタデータ） (2024-07-20T17:14:31Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
Exploiting Contextual Target Attributes for Target Sentiment Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文参考訳（メタデータ） (2023-12-21T11:45:28Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)
Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文参考訳（メタデータ） (2023-05-25T17:43:05Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。