論文の概要: A Framework for Generating Semantically Ambiguous Images to Probe Human and Machine Perception
- arxiv url: http://arxiv.org/abs/2603.24730v1
- Date: Wed, 25 Mar 2026 18:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.945888
- Title: A Framework for Generating Semantically Ambiguous Images to Probe Human and Machine Perception
- Title(参考訳): 人間と機械の知覚を実証する意味不明な画像を生成するためのフレームワーク
- Authors: Yuqi Hu, Vasha DuTell, Ahna R. Girshick, Jennifer E. Corbett,
- Abstract要約: 意味的あいまいなイメージを解釈可能性プローブとして使用し、視覚モデルが概念間の境界をどのように表現するかを明らかにする。
機械分類器は 'rabbit'' に偏りがあるのに対し、人間は合成に使用されるCLIP埋め込みと一致している。
本フレームワークは、人間の心理物理学的分析、画像分類、生成画像モデルとのギャップを埋めるための診断ツールとして、制御されたあいまいさがどのように役立つかを実証する。
- 参考スコア(独自算出の注目度): 4.587128110113447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classic duck-rabbit illusion reveals that when visual evidence is ambiguous, the human brain must decide what it sees. But where exactly do human observers draw the line between ''duck'' and ''rabbit'', and do machine classifiers draw it in the same place? We use semantically ambiguous images as interpretability probes to expose how vision models represent the boundaries between concepts. We present a psychophysically-informed framework that interpolates between concepts in the CLIP embedding space to generate continuous spectra of ambiguous images, allowing us to precisely measure where and how humans and machine classifiers place their semantic boundaries. Using this framework, we show that machine classifiers are more biased towards seeing ''rabbit'', whereas humans are more aligned with the CLIP embedding used for synthesis, and the guidance scale seems to affect human sensitivity more strongly than machine classifiers. Our framework demonstrates how controlled ambiguity can serve as a diagnostic tool to bridge the gap between human psychophysical analysis, image classification, and generative image models, offering insight into human-model alignment, robustness, model interpretability, and image synthesis methods.
- Abstract(参考訳): 古典的なアヒル・ラビットの錯覚は、視覚的証拠が曖昧であるときには、人間の脳がそれを見るものを決定する必要があることを示している。
しかし、人間の観察者は正確には'duck'と'rabbit'の間を線引きし、機械分類器は同じ場所でそれを線引きするのでしょうか?
意味的あいまいなイメージを解釈可能性プローブとして使用し、視覚モデルが概念間の境界をどのように表現するかを明らかにする。
我々は,CLIP埋め込み空間の概念を補間して曖昧な画像の連続スペクトルを生成する心理物理学的インフォームド・フレームワークを提案し,人間と機械の分類器がセマンティック・バウンダリをどう配置するかを正確に測定する。
この枠組みを用いて、機械分類器は「rabbit」に偏りがあることを示し、人間は合成に使用されるCLIP埋め込みに一致しており、誘導尺度は機械分類器よりも人間の感度に強く影響していると考えられる。
本フレームワークは、人間の心理物理学的分析、画像分類、生成画像モデルのギャップを埋める診断ツールとして、制御されたあいまいさがどのように役立つかを示し、人間のモデルアライメント、堅牢性、モデル解釈可能性、画像合成方法に関する洞察を提供する。
関連論文リスト
- A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data [0.0]
人間の参照解釈の中核的な側面をモデル化する計算フレームワークを提案する。
スタンフォード・リピート・レファレンス・ゲーム・コーパス(Stanford Repeated Reference Game corpus)のモデルを評価する。
その結果, 比較的単純な知覚言語的アライメント機構は, 人間の競争行動をもたらすことが示唆された。
論文 参考訳(メタデータ) (2026-02-23T07:20:11Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Are Images Indistinguishable to Humans Also Indistinguishable to Classifiers? [39.31679737754048]
ニューラルネットワークベースの分類器の観点からは、高度な拡散モデルでさえもこの目標には程遠いことが示される。
本手法は,生成したデータの特定の特徴を解析することにより,拡散モデルの診断ツールとして自然に機能する。
次に、モデルオートファジー障害に光を当て、生成されたデータの使用に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T10:25:06Z) - Interpretable Alzheimer's Disease Classification Via a Contrastive
Diffusion Autoencoder [2.32264126110326]
コントラスト損失と拡散オートエンコーダのバックボーンを組み合わせて意味論的に意味のある潜在空間を生成する。
2次元MRI画像のデータセット上で,ブラックボックスアプローチに匹敵する分類精度を実現する。
この研究は、医用画像における正確かつ解釈可能な深層学習の発展に寄与している。
論文 参考訳(メタデータ) (2023-06-05T16:38:48Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing
Human Trust in Image Recognition Models [84.32751938563426]
我々は、深層畳み込みニューラルネットワーク(CNN)による決定を説明するための、新しい説明可能なAI(XAI)フレームワークを提案する。
単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。
本フレームワークは,機械の心と人間の心の相違を媒介し,対話における説明文のシーケンスを生成する。
論文 参考訳(メタデータ) (2021-09-03T09:46:20Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。