論文の概要: Perception of Visual Content: Differences Between Humans and Foundation Models
- arxiv url: http://arxiv.org/abs/2411.18968v2
- Date: Wed, 26 Mar 2025 13:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:40.979787
- Title: Perception of Visual Content: Differences Between Humans and Foundation Models
- Title(参考訳): 視覚内容の知覚:人間と基礎モデルの違い
- Authors: Nardiena A. Pratama, Shaoyang Fan, Gianluca Demartini,
- Abstract要約: 本研究では、多様な社会経済的文脈を表す画像の人為的およびML的アノテーションを比較した。
本データセットは,様々な地域・所得水準の人々のイメージで構成され,日々の行動や家庭環境を網羅している。
我々は、人間とML生成アノテーションを意味的に比較し、予測モデルへの影響を評価する。
- 参考スコア(独自算出の注目度): 4.251488927334905
- License:
- Abstract: Human-annotated content is often used to train machine learning (ML) models. However, recently, language and multi-modal foundational models have been used to replace and scale-up human annotator's efforts. This study compares human-generated and ML-generated annotations of images representing diverse socio-economic contexts. We aim to understand differences in perception and identify potential biases in content interpretation. Our dataset comprises images of people from various geographical regions and income levels, covering various daily activities and home environments. We compare human and ML-generated annotations semantically and evaluate their impact on predictive models. Our results show highest similarity between ML captions and human labels from a low-level perspective, i.e., types of words that appear and sentence structures, but all three annotations are alike in how similar or dissimilar they perceive images across different regions. Additionally, ML Captions resulted in best overall region classification performance, while ML Objects and ML Captions performed best overall for income regression. The varying performance of annotation sets highlights the notion that all annotations are important, and that human-generated annotations are yet to be replaceable.
- Abstract(参考訳): ヒューマンアノテーション付きコンテンツは機械学習(ML)モデルのトレーニングによく使用される。
しかし、近年、言語とマルチモーダルの基礎モデルは、人間のアノテータの取り組みを置き換え、スケールアップするために使われてきた。
本研究では、多様な社会経済的文脈を表す画像の人為的およびML的アノテーションを比較した。
我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
本データセットは,様々な地域・所得水準の人々のイメージで構成され,日々の行動や家庭環境を網羅している。
我々は、人間とML生成アノテーションを意味的に比較し、予測モデルへの影響を評価する。
以上の結果から,MLキャプションと人名ラベルの類似度は低レベル,すなわち出現する単語の種類と文構造とでは最も高いが,これら3つのアノテーションは,各領域における画像の類似性や相違性に類似している。
さらに、ML Captionsは地域別で最高の成績を収め、ML ObjectsとML Captionsは収入減少率で最高の成績を収めた。
アノテーションセットのさまざまなパフォーマンスは、すべてのアノテーションが重要であり、人為的なアノテーションはまだ置き換えられていない、という考えを強調している。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback [8.04095222893591]
我々は、人種、年齢、政治的スタンス、教育水準、LGBTQ+アノテーターのアイデンティティによって、公平さの選好に大きなギャップを見いだす。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-09T19:42:25Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - DreamSim: Learning New Dimensions of Human Visual Similarity using
Synthetic Data [43.247597420676044]
現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作します。
これらのメトリクスは、低レベルの色やテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティック内容の中間レベルの類似点や相違点をキャプチャできない。
我々は,画像の全体的評価を行う知覚的指標を開発した。
論文 参考訳(メタデータ) (2023-06-15T17:59:50Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。
我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。
アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文 参考訳(メタデータ) (2021-11-29T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。