論文の概要: Computer Vision and Its Relationship to Cognitive Science: A perspective from Bayes Decision Theory
- arxiv url: http://arxiv.org/abs/2602.00289v1
- Date: Fri, 30 Jan 2026 20:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.098552
- Title: Computer Vision and Its Relationship to Cognitive Science: A perspective from Bayes Decision Theory
- Title(参考訳): コンピュータビジョンと認知科学の関係:ベイズ決定論の視点から
- Authors: Alan Yuille, Daniel Kersten,
- Abstract要約: ベイズ決定理論からみたコンピュータビジョンの紹介とその認知科学との関係について(Berger 1985)
コンピュータビジョンは広大で複雑な分野であるため、この概要は狭いスコープを持ち、多くの重要な概念を捉える理論レンズを提供する。
- 参考スコア(独自算出の注目度): 4.381987067987309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This document presents an introduction to computer vision, and its relationship to Cognitive Science, from the perspective of Bayes Decision Theory (Berger 1985). Computer vision is a vast and complex field, so this overview has a narrow scope and provides a theoretical lens which captures many key concepts. BDT is rich enough to include two different approaches: (i) the Bayesian viewpoint, which gives a conceptually attractive framework for vision with concepts that resonate with Cognitive Science (Griffiths et al., 2024), and (ii) the Deep Neural Network approach whose successes in the real world have made Computer Vision into a trillion-dollar industry and which is motivated by the hierarchical structure of the visual ventral stream. The BDT framework relates and captures the strengths and weakness of these two approaches and, by discussing the limitations of BDT, points the way to how they can be combined in a richer framework.
- Abstract(参考訳): この文書は、ベイズ決定理論(Berger 1985)の観点から、コンピュータビジョンとその認知科学との関係について紹介する。
コンピュータビジョンは広大で複雑な分野であるため、この概要は狭いスコープを持ち、多くの重要な概念を捉える理論レンズを提供する。
BDTは2つの異なるアプローチを含むのに十分リッチです。
(i)認知科学に共鳴する概念(Griffiths et al ,2024)と、概念的に魅力的なビジョンの枠組みを提供するベイズ的視点
(II)Deep Neural Networkアプローチは、コンピュータビジョンを1兆ドル規模の産業へと発展させ、視覚腹腔ストリームの階層構造に動機づけられた。
BDTフレームワークは、これらの2つのアプローチの長所と短所を関連付け、捉え、BDTの限界について議論することで、よりリッチなフレームワークでそれらを組み合わせる方法を示します。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Foundations of Artificial Intelligence Frameworks: Notion and Limits of AGI [0.0]
人工知能は、スケールに関係なく、現在のニューラルネットワークパラダイムから生まれない、と我々は主張する。
本稿では,既存の施設(計算基板)と建築組織を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:18:13Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Thinking with Images for Multimodal Reasoning: Foundations, Methods, and Future Frontiers [90.4459196223986]
同様の進化がAIで展開され、単にイメージについて考えるモデルから、イメージについて真に考えるモデルへのパラダイムシフトを象徴している。
この新たなパラダイムは、視覚情報を思考過程の中間ステップとして活用するモデルによって特徴づけられ、視覚を受動的に操作可能な認知ワークスペースに変換する。
論文 参考訳(メタデータ) (2025-06-30T14:48:35Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。
この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。
我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。
本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文 参考訳(メタデータ) (2022-09-27T16:38:24Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Acquiring and Modelling Abstract Commonsense Knowledge via Conceptualization [49.00409552570441]
本研究では,コモンセンス推論における概念化の役割について検討し,人間の概念化を再現する枠組みを定式化する。
ATOMIC は大規模な人為的注釈付き CKG であり,この枠組みを分類プロベースで支援している。
論文 参考訳(メタデータ) (2022-06-03T12:24:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。