論文の概要: "Is a picture of a bird a bird": Policy recommendations for dealing with
ambiguity in machine vision models
- arxiv url: http://arxiv.org/abs/2306.15777v1
- Date: Tue, 27 Jun 2023 19:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:45:42.836581
- Title: "Is a picture of a bird a bird": Policy recommendations for dealing with
ambiguity in machine vision models
- Title(参考訳): 『鳥図』:機械ビジョンモデルにおけるあいまいさを扱うための政策勧告
- Authors: Alicia Parrish, Sarah Laszlo, Lora Aroyo
- Abstract要約: 本研究では,機械視覚モデルの訓練に用いる画像のラベル付け作業における主観的人間の判断の影響について検討する。
画像中のラベルの描写,ラッカーの背景,タスク定義から生じる曖昧さの3つの主要な源を同定する。
実験結果に基づいて,機械学習データセットにおけるラベル曖昧性を扱うためのベストプラクティスを提案する。
- 参考スコア(独自算出の注目度): 4.740205436020945
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many questions that we ask about the world do not have a single clear answer,
yet typical human annotation set-ups in machine learning assume there must be a
single ground truth label for all examples in every task. The divergence
between reality and practice is stark, especially in cases with inherent
ambiguity and where the range of different subjective judgments is wide. Here,
we examine the implications of subjective human judgments in the behavioral
task of labeling images used to train machine vision models. We identify three
primary sources of ambiguity arising from (i) depictions of labels in the
images, (ii) raters' backgrounds, and (iii) the task definition. On the basis
of the empirical results, we suggest best practices for handling label
ambiguity in machine learning datasets.
- Abstract(参考訳): 私たちが世界について尋ねる多くの質問は、ひとつの明確な答えを持っていないが、機械学習における一般的な人間のアノテーションセットは、すべてのタスクのすべての例に対して、単一の真実ラベルが必要であると仮定している。
現実と実践の相違は、特に本質的なあいまいさがあり、異なる主観的判断の範囲が広い場合において顕著である。
本稿では,機械視覚モデルの学習に使用される画像のラベル付け行動における主観的判断の意義について検討する。
曖昧さの主な原因は3つあります
(i)画像中のラベルの描写
(ii)利率者の背景、及び
(iii)タスク定義。
実験結果に基づいて,機械学習データセットにおけるラベル曖昧性を扱うためのベストプラクティスを提案する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Semantic Contextualization of Face Forgery: A New Definition, Dataset, and Detection Method [77.65459419417533]
我々は,顔フォージェリを意味的文脈に配置し,意味的顔属性を変更する計算手法が顔フォージェリの源であることを定義した。
階層的なグラフで整理されたラベルの集合に各画像が関連付けられている大規模な顔偽画像データセットを構築した。
本稿では,ラベル関係を捕捉し,その優先課題を優先するセマンティクス指向の顔偽造検出手法を提案する。
論文 参考訳(メタデータ) (2024-05-14T10:24:19Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Human-Centered Evaluation of XAI Methods [15.875066879347745]
さまざまなタスクにまたがる決定を説明するために、多くの方法が登場した。
3つの主要な説明手法の解釈可能性を測定する。
以上の結果から,これらの手法が注目する領域は様々であるが,いずれも人間にほぼ同等の理解深度を与えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T14:39:12Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z) - Portrait Interpretation and a Benchmark [49.484161789329804]
提案した肖像画解釈は,人間の知覚を新たな体系的視点から認識する。
我々は,身元,性別,年齢,体格,身長,表情,姿勢をラベル付けした25万枚の画像を含む新しいデータセットを構築した。
筆者らの実験結果から, 肖像画解釈に関わるタスクを組み合わせることで, メリットが得られることが示された。
論文 参考訳(メタデータ) (2022-07-27T06:25:09Z) - Multimodal Word Sense Disambiguation in Creative Practice [2.9398911304923447]
アート画像のあいまいな記述のデータセット(ADARI)を提案する。
総計240万枚の画像に記述文をラベル付けして整理されている。
建築、芸術、デザイン、ファッション、家具、製品デザイン、テクノロジーのサブドメインも併設されている。
論文 参考訳(メタデータ) (2020-07-15T15:34:35Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Variable-Viewpoint Representations for 3D Object Recognition [27.913222855275997]
共通表現連続体の2つの極端に2種類の入力表現が存在することを示す。
この2つの極点の間の点にある興味深い中間表現を同定する。
系統的な経験実験を通して、入力情報の関数としてこの連続体に沿って精度がどのように変化するかを示す。
論文 参考訳(メタデータ) (2020-02-08T10:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。