論文の概要: VisAlign: Dataset for Measuring the Degree of Alignment between AI and
Humans in Visual Perception
- arxiv url: http://arxiv.org/abs/2308.01525v1
- Date: Thu, 3 Aug 2023 04:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 15:29:39.474335
- Title: VisAlign: Dataset for Measuring the Degree of Alignment between AI and
Humans in Visual Perception
- Title(参考訳): VisAlign: 視覚知覚におけるAIと人間のアライメントの度合いを測定するデータセット
- Authors: Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh
Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi
- Abstract要約: 画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。
我々のデータセットは、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのサンプルからなる。
一般的な5つの視覚知覚モデルと7つの禁忌手法の視覚的アライメントと信頼性を分析した。
- 参考スコア(独自算出の注目度): 21.007315829084874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI alignment refers to models acting towards human-intended goals,
preferences, or ethical principles. Given that most large-scale deep learning
models act as black boxes and cannot be manually controlled, analyzing the
similarity between models and humans can be a proxy measure for ensuring AI
safety. In this paper, we focus on the models' visual perception alignment with
humans, further referred to as AI-human visual alignment. Specifically, we
propose a new dataset for measuring AI-human visual alignment in terms of image
classification, a fundamental task in machine perception. In order to evaluate
AI-human visual alignment, a dataset should encompass samples with various
scenarios that may arise in the real world and have gold human perception
labels. Our dataset consists of three groups of samples, namely Must-Act (i.e.,
Must-Classify), Must-Abstain, and Uncertain, based on the quantity and clarity
of visual information in an image and further divided into eight categories.
All samples have a gold human perception label; even Uncertain (severely
blurry) sample labels were obtained via crowd-sourcing. The validity of our
dataset is verified by sampling theory, statistical theories related to survey
design, and experts in the related fields. Using our dataset, we analyze the
visual alignment and reliability of five popular visual perception models and
seven abstention methods. Our code and data is available at
\url{https://github.com/jiyounglee-0523/VisAlign}.
- Abstract(参考訳): AIアライメント(AIアライメント)とは、人間の意図した目標、好み、倫理的原則に向くモデルを指す。
ほとんどの大規模ディープラーニングモデルはブラックボックスとして機能し、手動では制御できないため、モデルと人間の類似性を分析することは、AIの安全性を確保するための代替手段となる。
本稿では、モデルと人間の視覚知覚アライメント(さらにAIと人間の視覚アライメントと呼ばれる)に焦点を当てる。
具体的には、画像分類の観点からAIと人間の視覚的アライメントを測定するための新しいデータセットを提案する。
AIと人間の視覚的アライメントを評価するために、データセットは現実世界で発生し、金色の人間の知覚ラベルを持つ様々なシナリオのサンプルを含むべきである。
我々のデータセットは、画像中の視覚情報の量と明度に基づいて、Must-Act(Must-Classify)、Must-Abstain、Uncertainの3つのグループから構成され、さらに8つのカテゴリに分けられる。
すべてのサンプルには金色の人間の知覚ラベルがあり、不確定な(ぼやけた)サンプルラベルでさえ、クラウドソーシングによって得られる。
このデータセットの有効性は,サンプリング理論,調査設計に関する統計理論,関連分野の専門家によって検証される。
このデータセットを用いて,5つの視覚知覚モデルと7つの回避方法の視覚的アライメントと信頼性を解析した。
我々のコードとデータは \url{https://github.com/jiyounglee-0523/VisAlign} で利用可能です。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z) - Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。
我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。
アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文 参考訳(メタデータ) (2021-11-29T17:26:50Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。