Fugu-MT 論文翻訳(概要): BRI3L: A Brightness Illusion Image Dataset for Identification and Localization of Regions of Illusory Perception

論文の概要: BRI3L: A Brightness Illusion Image Dataset for Identification and Localization of Regions of Illusory Perception

arxiv url: http://arxiv.org/abs/2402.04541v1
Date: Wed, 7 Feb 2024 02:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 17:07:48.544639
Title: BRI3L: A Brightness Illusion Image Dataset for Identification and Localization of Regions of Illusory Perception
Title（参考訳）: BRI3L:視線知覚領域の同定と位置推定のための明度Illusion画像データセット
Authors: Aniket Roy, Anirban Roy, Soma Mitra, Kuntal Ghosh
Abstract要約: 錯視分類と局所化のためのデータ駆動型アプローチを用いて,視覚錯視とベンチマークのデータセットを開発する。 1) ハーマン格子, 2) 同時コントラスト, 3) ホワイトイリュージョン, 4) グリッドイリュージョン, 5) グラティングイリュージョン。深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさの錯覚を一般化する。
参考スコア（独自算出の注目度）: 4.685953126232505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual illusions play a significant role in understanding visual perception. Current methods in understanding and evaluating visual illusions are mostly deterministic filtering based approach and they evaluate on a handful of visual illusions, and the conclusions therefore, are not generic. To this end, we generate a large-scale dataset of 22,366 images (BRI3L: BRightness Illusion Image dataset for Identification and Localization of illusory perception) of the five types of brightness illusions and benchmark the dataset using data-driven neural network based approaches. The dataset contains label information - (1) whether a particular image is illusory/nonillusory, (2) the segmentation mask of the illusory region of the image. Hence, both the classification and segmentation task can be evaluated using this dataset. We follow the standard psychophysical experiments involving human subjects to validate the dataset. To the best of our knowledge, this is the first attempt to develop a dataset of visual illusions and benchmark using data-driven approach for illusion classification and localization. We consider five well-studied types of brightness illusions: 1) Hermann grid, 2) Simultaneous Brightness Contrast, 3) White illusion, 4) Grid illusion, and 5) Induced Grating illusion. Benchmarking on the dataset achieves 99.56% accuracy in illusion identification and 84.37% pixel accuracy in illusion localization. The application of deep learning model, it is shown, also generalizes over unseen brightness illusions like brightness assimilation to contrast transitions. We also test the ability of state-of-theart diffusion models to generate brightness illusions. We have provided all the code, dataset, instructions etc in the github repo: https://github.com/aniket004/BRI3L
Abstract（参考訳）: 視覚錯覚は視覚知覚を理解する上で重要な役割を果たしている。現在の視覚錯覚の理解と評価の方法は、ほとんどが決定論的フィルタリングに基づくアプローチであり、少数の視覚錯覚を評価しているため、結論は一般的ではない。この目的のために,5種類の輝度錯覚の2,366画像(bri3l: 輝度錯視画像データセット)の大規模データセットを作成し,データ駆動型ニューラルネットワークを用いてデータセットをベンチマークする。データセットは、(1)特定の画像がイラスト/非イラストであるか、(2)画像のイラスト領域のセグメンテーションマスクであるか、というラベル情報を含む。したがって、このデータセットを用いて分類と分割のタスクを評価できる。我々は、被験者がデータセットを検証するための標準的な心理物理学実験に従う。私たちの知る限りでは、これは錯視分類とローカライゼーションのためのデータ駆動アプローチを用いた視覚錯覚とベンチマークのデータセットを開発する最初の試みです。我々は5つのよく研究された明るさ錯覚について考察する。 1)ヘルマングリッド 2)同時輝度コントラスト 3)白い幻想。 4) 格子錯視、及び 5)グレーティング錯覚を誘発する。データセットのベンチマークでは、イリュージョンの精度は99.56%、イリュージョンのローカライゼーションの精度は84.37%である。深層学習モデルの応用は、コントラスト遷移に対する明るさ同化のような目に見えない明るさ錯覚を一般化する。また,定常拡散モデルを用いて輝度錯覚を生成する能力についても検証した。 githubリポジトリにあるすべてのコード、データセット、命令などを提供しています。

関連論文リスト

IllusionBench: A Large-scale and Comprehensive Benchmark for Visual Illusion Understanding in Vision-Language Models [56.34742191010987]
現在のビジュアル言語モデル(VLM)は印象的なイメージ理解を示すが、視覚錯覚に苦慮している。我々はIllusionBenchを紹介した。IllusionBenchは、古典的な認知錯覚と現実のシーン錯覚を含む包括的視覚錯覚データセットである。我々は従来のパターンに似ているが現実に異なるトラップイリュージョンを設計し、SOTAモデルの問題を強調する。
論文参考訳（メタデータ） (2025-01-01T14:10:25Z)
The Art of Deception: Color Visual Illusions and Diffusion Models [55.830105086695]
近年の研究では、人工ニューラルネットワーク(ANN)が視覚錯覚によっても騙せることが示されている。拡散モデルにおいて視覚錯覚がどのように符号化されているかを示す。また,テキスト・ツー・イメージ拡散モデルを用いて,現実的な画像に新たな視覚錯覚を生成する方法を示す。
論文参考訳（メタデータ） (2024-12-13T13:07:08Z)
Diffusion Illusions: Hiding Images in Plain Sight [37.87050866208039]
拡散イリュージョンは、広範囲の錯覚を自動的に生成するように設計された最初の包括的パイプラインである。我々は3種類の錯覚を研究し、それぞれの素像を異なる方法で配置する。これらの錯覚に関する総合的な実験を行い、提案手法の有効性を検証する。
論文参考訳（メタデータ） (2023-12-06T18:59:18Z)
Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans? [28.654771227396807]
VLM(Vision-Language Models)は、人間の世界理解を模した膨大な量のデータに基づいて訓練されている。 VLMは人間がするのと同じような錯覚を持っているのか、それとも現実を表現することを忠実に学んでいるのか? 我々は、5種類の視覚錯視を含むデータセットを構築し、4つのタスクを定式化し、最先端のVLMにおける視覚錯視を調べる。
論文参考訳（メタデータ） (2023-10-31T18:01:11Z)
SIDAR: Synthetic Image Dataset for Alignment & Restoration [2.9649783577150837]
エンドツーエンドのディープラーニングモデルのトレーニングと評価に十分なデータを提供するデータセットが不足している。提案したデータ拡張は,3次元レンダリングを用いてデータの不足を克服するのに役立つ。得られたデータセットは、画像アライメントとアーティファクト削除を含むさまざまなタスクのトレーニングと評価セットとして機能する。
論文参考訳（メタデータ） (2023-05-19T23:32:06Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文参考訳（メタデータ） (2021-03-03T08:07:29Z)
Predictive coding feedback results in perceived illusory contours in a recurrent neural network [0.0]
脳にインスパイアされたリカレントダイナミクスを備えたディープフィードフォワード畳み込みネットワークを備える。照明輪郭の知覚にはフィードバック接続が関与する可能性が示唆された。
論文参考訳（メタデータ） (2021-02-03T09:07:09Z)
Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。過去30年間に様々な評価方法が提案されてきた。注意変動を記述するための重力モデル(GRAV)を提案する。
論文参考訳（メタデータ） (2020-09-15T10:12:41Z)
Visual Chirality [51.685596116645776]
視覚データの統計が反射によってどのように変化するかを検討する。我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。
論文参考訳（メタデータ） (2020-06-16T20:48:23Z)
Color Visual Illusions: A Statistics-based Computational Model [20.204147875108976]
大規模なデータセットから学ぶと、パッチの可能性を計算するツールを導入します。本稿では,鮮明さと色覚の錯覚を統一的に説明できるモデルを提案する。我々のモデルは、逆向きに同じツールを適用することで、自然画像の視覚錯覚を生成する。
論文参考訳（メタデータ） (2020-05-18T14:39:48Z)
Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文参考訳（メタデータ） (2020-03-02T10:44:13Z)
Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文参考訳（メタデータ） (2020-02-10T20:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。