論文の概要: Perception of Visual Content: Differences Between Humans and Foundation Models
- arxiv url: http://arxiv.org/abs/2411.18968v3
- Date: Sun, 27 Apr 2025 12:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.021395
- Title: Perception of Visual Content: Differences Between Humans and Foundation Models
- Title(参考訳): 視覚内容の知覚:人間と基礎モデルの違い
- Authors: Nardiena A. Pratama, Shaoyang Fan, Gianluca Demartini,
- Abstract要約: 本研究では,多様な社会経済的文脈における画像のヒト生成アノテーションとML生成アノテーションの類似性について検討した。
我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
- 参考スコア(独自算出の注目度): 4.251488927334905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-annotated content is often used to train machine learning (ML) models. However, recently, language and multi-modal foundational models have been used to replace and scale-up human annotator's efforts. This study explores the similarity between human-generated and ML-generated annotations of images across diverse socio-economic contexts (RQ1) and their impact on ML model performance and bias (RQ2). We aim to understand differences in perception and identify potential biases in content interpretation. Our dataset comprises images of people from various geographical regions and income levels, covering various daily activities and home environments. ML captions and human labels show highest similarity at a low-level, i.e., types of words that appear and sentence structures, but all annotations are consistent in how they perceive images across regions. ML Captions resulted in best overall region classification performance, while ML Objects and ML Captions performed best overall for income regression. ML annotations worked best for action categories, while human input was more effective for non-action categories. These findings highlight the notion that both human and machine annotations are important, and that human-generated annotations are yet to be replaceable.
- Abstract(参考訳): ヒューマンアノテーション付きコンテンツは機械学習(ML)モデルのトレーニングによく使用される。
しかし、近年、言語とマルチモーダルの基礎モデルは、人間のアノテータの取り組みを置き換え、スケールアップするために使われてきた。
本研究では、さまざまな社会経済的文脈(RQ1)における画像の人為的アノテーションとML生成アノテーションの類似性と、MLモデルの性能とバイアス(RQ2)に与える影響について検討する。
我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
本データセットは,様々な地域・所得水準の人々のイメージで構成され,日々の行動や家庭環境を網羅している。
MLキャプションとヒューマンラベルは、低レベル、すなわち、出現する単語の種類と文構造において最も類似性を示すが、すべてのアノテーションは、地域間でイメージを知覚する方法に一貫性がある。
ML Captionsは地域別で最高の成績を示し,ML Objects と ML Captions は収入減少率で最高の成績を示した。
MLアノテーションはアクションカテゴリに最適であり、ヒューマンインプットは非アクションカテゴリにより効果的であった。
これらの知見は、人的アノテーションと機械的アノテーションの両方が重要であり、人為的なアノテーションは、いまだに置き換えられない、という考えを浮き彫りにしている。
関連論文リスト
- Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models [0.9285295512807729]
社会カテゴリーとステレオタイプは言語に埋め込まれており、大規模言語モデルにデータバイアスを導入することができる。
本稿では,文中のステレオタイプの言語指標を検出し,定量化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T14:15:28Z) - Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities [31.293869275511412]
本稿では、画像分類の詳細な分析により、MLLM(Multimodal Large Language Models)を徹底的に再検討する。
この結果から,最新のMLLMは,複数のデータセット上でCLIPスタイルの視覚言語モデルに適合し,さらに優れることがわかった。
論文 参考訳(メタデータ) (2024-12-21T00:46:56Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - HLB: Benchmarking LLMs' Humanlikeness in Language Use [2.438748974410787]
20大言語モデル(LLM)を評価する総合的人間類似度ベンチマーク(HLB)を提案する。
実験では2000人以上の被験者から回答を収集し,LSMの成果と比較した。
以上の結果から,LLMが様々な言語レベルにおいてヒトの反応をいかにうまく再現するかの微妙な相違が明らかとなった。
論文 参考訳(メタデータ) (2024-09-24T09:02:28Z) - Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback [8.04095222893591]
我々は、人種、年齢、政治的スタンス、教育水準、LGBTQ+アノテーターのアイデンティティによって、公平さの選好に大きなギャップを見いだす。
また、テキストで言及された人口統計は、ユーザーがモデレーションにおいて個人の公平さをどう知覚するかに大きな影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-09T19:42:25Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Naming, Describing, and Quantifying Visual Objects in Humans and LLMs [5.59181673439492]
視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
論文 参考訳(メタデータ) (2024-03-11T17:20:12Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - The Need for Interpretable Features: Motivation and Taxonomy [69.07189753428553]
我々は、「解釈可能な特徴」という用語は、機械学習の説明の有用性に影響を与える機能の全範囲を捉えるのに十分な具体的あるいは詳細ではないと主張している。
本稿では,(1)解釈可能な機能空間と呼ぶもの,あるいはドメインの専門家が現実の行動を取る上で有用な機能の現状に,より注意を払わなければならない,という3つの重要な教訓を論じる。
論文 参考訳(メタデータ) (2022-02-23T19:19:14Z) - Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。
我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。
アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文 参考訳(メタデータ) (2021-11-29T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。