論文の概要: Do you see what I see? An Ambiguous Optical Illusion Dataset exposing limitations of Explainable AI
- arxiv url: http://arxiv.org/abs/2505.21589v1
- Date: Tue, 27 May 2025 12:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.190664
- Title: Do you see what I see? An Ambiguous Optical Illusion Dataset exposing limitations of Explainable AI
- Title(参考訳): 私が見ているものが見える? 説明可能なAIの限界を露呈する曖昧な光学イリュージョンデータセット
- Authors: Carina Newen, Luca Hinkamp, Maria Ntonti, Emmanuel Müller,
- Abstract要約: 本稿では,視覚のあいまいさを喚起する視覚錯覚の新たなデータセットについて紹介する。
我々は、一般化可能な視覚概念、特に視線方向と眼の手がかりを、モデル精度に大きな影響を及ぼす微妙だが影響のある特徴として識別する。
本研究は,視覚学習における概念の重要性を浮き彫りにし,人間と機械の視界の偏りと整合を研究する基盤を提供するものである。
- 参考スコア(独自算出の注目度): 4.58733012283457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: From uncertainty quantification to real-world object detection, we recognize the importance of machine learning algorithms, particularly in safety-critical domains such as autonomous driving or medical diagnostics. In machine learning, ambiguous data plays an important role in various machine learning domains. Optical illusions present a compelling area of study in this context, as they offer insight into the limitations of both human and machine perception. Despite this relevance, optical illusion datasets remain scarce. In this work, we introduce a novel dataset of optical illusions featuring intermingled animal pairs designed to evoke perceptual ambiguity. We identify generalizable visual concepts, particularly gaze direction and eye cues, as subtle yet impactful features that significantly influence model accuracy. By confronting models with perceptual ambiguity, our findings underscore the importance of concepts in visual learning and provide a foundation for studying bias and alignment between human and machine vision. To make this dataset useful for general purposes, we generate optical illusions systematically with different concepts discussed in our bias mitigation section. The dataset is accessible in Kaggle via https://kaggle.com/datasets/693bf7c6dd2cb45c8a863f9177350c8f9849a9508e9d50526e2ffcc5559a8333. Our source code can be found at https://github.com/KDD-OpenSource/Ambivision.git.
- Abstract(参考訳): 不確実性定量化から実世界の物体検出まで、機械学習アルゴリズムの重要性、特に自律運転や医療診断のような安全クリティカルな領域の重要性を認識します。
機械学習では、あいまいなデータがさまざまな機械学習領域で重要な役割を果たす。
光学錯視は、人間と機械の両方の知覚の限界についての洞察を提供するので、この文脈で魅力的な研究領域を示す。
この関連性にもかかわらず、光学的錯視データセットは依然として乏しい。
本研究では,視覚のあいまいさを喚起する動物対を融合させた新しい錯視データセットを提案する。
我々は、一般化可能な視覚概念、特に視線方向と眼の手がかりを、モデル精度に大きな影響を及ぼす微妙だが影響のある特徴として識別する。
知覚的あいまいさを伴うモデルに直面することによって、視覚学習における概念の重要性を強調し、人間と機械の視覚の偏見と整合を研究する基盤を提供する。
このデータセットを一般的な目的に役立てるために、偏差緩和セクションで議論された異なる概念で光学錯視を体系的に生成する。
データセットは Kaggle で https://kaggle.com/datasets/693bf7c6dd2c45c8a863f9177350c8f9849a9508e9d50526e2ffcc5559a8333 を通じてアクセス可能である。
ソースコードはhttps://github.com/KDD-OpenSource/Ambivision.git.comにある。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision [0.08192907805418582]
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。
本研究では, 連続度と数値の相関構造が, データセット, シーンタイプ間で安定であることを示す。
論文 参考訳(メタデータ) (2024-09-17T09:49:29Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - URLOST: Unsupervised Representation Learning without Stationarity or Topology [26.010647961403148]
定常性やトポロジの事前知識のない高次元データから学習する新しいフレームワークを提案する。
このモデルでは,学習可能な自己組織化層,スペクトルクラスタリング,マスク付きオートエンコーダを組み合わせる。
本研究は,生体視覚データ,一次視覚野からの神経記録,遺伝子発現を含む3種類のデータモダリティに対して有効性を評価する。
論文 参考訳(メタデータ) (2023-10-06T18:00:02Z) - InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。
我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-28T13:01:32Z) - ColorSense: A Study on Color Vision in Machine Visual Recognition [57.916512479603064]
視覚認識ベンチマークから,前景や背景色ラベルの非自明なアノテーション110,000点を収集する。
色識別のレベルがマシン認識モデルの性能に与える影響を実証することにより、データセットの使用を検証した。
その結果,分類や局所化などの物体認識タスクは,色覚バイアスの影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2022-12-16T18:51:41Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。