論文の概要: Leveraging Geometric Visual Illusions as Perceptual Inductive Biases for Vision Models
- arxiv url: http://arxiv.org/abs/2509.15156v1
- Date: Thu, 18 Sep 2025 17:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.355656
- Title: Leveraging Geometric Visual Illusions as Perceptual Inductive Biases for Vision Models
- Title(参考訳): 視覚モデルにおける知覚誘導バイアスとしての幾何学的視覚錯覚の活用
- Authors: Haobo Yang, Minghao Guo, Dequan Yang, Wenyu Wang,
- Abstract要約: 合成・パラメトリックな幾何学的イリュージョンデータセットを導入し,画像ネットの分類目的と錯覚認識タスクを組み合わせた3つのマルチソース学習戦略を評価する。
i) 錯視を補助的指導として取り入れることで、特に複雑な輪郭や細かいテクスチャを含む視覚的に困難な場合において、一般化を体系的に改善する。
これらの結果は、知覚科学と機械学習の新たな統合を実証し、視覚モデル設計に知覚の先行を埋め込むための新しい方向性を提案する。
- 参考スコア(独自算出の注目度): 15.629707528331672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contemporary deep learning models have achieved impressive performance in image classification by primarily leveraging statistical regularities within large datasets, but they rarely incorporate structured insights drawn directly from perceptual psychology. To explore the potential of perceptually motivated inductive biases, we propose integrating classic geometric visual illusions well-studied phenomena from human perception into standard image-classification training pipelines. Specifically, we introduce a synthetic, parametric geometric-illusion dataset and evaluate three multi-source learning strategies that combine illusion recognition tasks with ImageNet classification objectives. Our experiments reveal two key conceptual insights: (i) incorporating geometric illusions as auxiliary supervision systematically improves generalization, especially in visually challenging cases involving intricate contours and fine textures; and (ii) perceptually driven inductive biases, even when derived from synthetic stimuli traditionally considered unrelated to natural image recognition, can enhance the structural sensitivity of both CNN and transformer-based architectures. These results demonstrate a novel integration of perceptual science and machine learning and suggest new directions for embedding perceptual priors into vision model design.
- Abstract(参考訳): 現代のディープラーニングモデルは、主に大きなデータセット内の統計的規則性を活用することで、画像分類における印象的な性能を達成したが、知覚心理学から直接引き出された構造化された洞察を組み込むことは滅多にない。
そこで本研究では,人間の知覚からよく観察された現象を標準的な画像分類訓練パイプラインに組み込むことにより,知覚に動機づけられた帰納的バイアスの可能性を探る。
具体的には、合成されたパラメトリックな幾何学的イリュージョンデータセットを導入し、イリュージョン認識タスクと画像ネット分類の目的を組み合わせた3つのマルチソース学習戦略を評価する。
私たちの実験では、2つの重要な概念的洞察が明らかになりました。
一 幾何学的錯覚を補助的指導として取り入れることで、特に複雑な輪郭や細かいテクスチャを含む視覚的に困難な場合における一般化を体系的に改善する。
(II)従来の自然画像認識とは無関係と考えられていた合成刺激から派生した知覚誘導バイアスは、CNNとトランスフォーマーベースアーキテクチャの両方の構造感度を高めることができる。
これらの結果は、知覚科学と機械学習の新たな統合を実証し、視覚モデル設計に知覚の先行を埋め込むための新しい方向性を提案する。
関連論文リスト
- Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。
我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文 参考訳(メタデータ) (2025-05-26T07:27:18Z) - Advances in Radiance Field for Dynamic Scene: From Neural Field to Gaussian Field [85.12359852781216]
本研究では,放射場を用いた動的シーン表現に着目した200以上の論文の体系的分析を行った。
我々は,多種多様な方法論的アプローチを統一的な表現的枠組みの下で組織し,永続的な課題の批判的検討と有望な研究方向性を結論づける。
論文 参考訳(メタデータ) (2025-05-15T07:51:08Z) - Visual Image Reconstruction from Brain Activity via Latent Representation [0.0]
レビューでは、フィールドの進化は初期の分類のアプローチから洗練された再構築まで遡る。
多様なデータセットの必要性と、人間の知覚的判断に合わせた洗練された評価指標について論じる。
視覚画像再構成は、ニューラルコーディングに関する有望な洞察を提供し、視覚経験の新たな心理的測定を可能にする。
論文 参考訳(メタデータ) (2025-05-13T10:46:52Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)は、ノイズ、ぼかし、圧縮、悪天候など幅広い要因によって生じる劣化した観察から高品質な画像の復元を目指している。
従来のIR法は、個々の劣化タイプを対象とすることで顕著な進歩を遂げてきたが、それらの特殊化は、しばしば一般化のコストがかかる。
オールインワンのイメージ復元パラダイムが最近登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供している。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。