論文の概要: Motion Mapping Cognition: A Nondecomposable Primary Process in Human
Vision
- arxiv url: http://arxiv.org/abs/2402.04275v1
- Date: Fri, 2 Feb 2024 10:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:29:54.099012
- Title: Motion Mapping Cognition: A Nondecomposable Primary Process in Human
Vision
- Title(参考訳): モーションマッピング認知:人間の視覚における非分解性一次過程
- Authors: Zhenping Xie
- Abstract要約: 基本的な認知過程である運動マッピング認知(MMC)は、人間の視覚において、分解不能な一次機能であるべきである。
MMCは、人間の視覚機能の大部分を基本的に説明するために使用することができるが、従来の視覚処理方法によって効果的にモデル化することはできない。
私は、MCCは、人間の視覚に対するChenのトポロジカルな認識の延長と見なされ、既存のインテリジェントアルゴリズムスキルでは解決不可能であると考えている。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human intelligence seems so mysterious that we have not successfully
understood its foundation until now. Here, I want to present a basic cognitive
process, motion mapping cognition (MMC), which should be a nondecomposable
primary function in human vision. Wherein, I point out that, MMC process can be
used to explain most of human visual functions in fundamental, but can not be
effectively modelled by traditional visual processing ways including image
segmentation, object recognition, object tracking etc. Furthermore, I state
that MMC may be looked as an extension of Chen's theory of topological
perception on human vision, and seems to be unsolvable using existing
intelligent algorithm skills. Finally, along with the requirements of MMC
problem, an interesting computational model, quantized topological matching
principle can be derived by developing the idea of optimal transport theory.
Above results may give us huge inspiration to develop more robust and
interpretable machine vision models.
- Abstract(参考訳): 人間の知性はあまりにも神秘的なので、これまでその基礎をうまく理解できなかった。
ここでは、人間の視覚において、分解不能な一次機能であるべき基本的な認知過程である運動マッピング認知(MMC)を紹介したい。
一方、MCCプロセスは、人間の視覚機能の大部分を基本的に説明するために使用することができるが、画像分割、オブジェクト認識、オブジェクト追跡などの従来の視覚処理方法によって効果的にモデル化することはできない。
さらに、MCCは、人間の視覚に対するChenのトポロジカルな認識の延長と見なされる可能性があり、既存のインテリジェントアルゴリズム技術では解決できないように思われる。
最後に、MCC問題、興味深い計算モデル、量子化されたトポロジカルマッチング原理の要求とともに、最適な輸送理論のアイデアを考案することで導出することができる。
以上の結果は、より堅牢で解釈可能なマシンビジョンモデルを開発するための大きなインスピレーションとなります。
関連論文リスト
- Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Understanding Multimodal Deep Neural Networks: A Concept Selection View [29.08342307127578]
概念に基づくモデルは、ディープニューラルネットワークによって抽出されたブラックボックスの視覚表現を、人間の理解可能な概念のセットにマッピングする。
人間の先入観を導入することなくコア概念をマイニングするための2段階概念選択モデル(CSM)を提案する。
提案手法は,エンドツーエンドのブラックボックスモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-04-13T11:06:49Z) - Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
また,複雑な視覚的抽象的推論タスクのためのPose-Transformerを設計した。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Latent Emission-Augmented Perspective-Taking (LEAPT) for Human-Robot
Interaction [16.19711863900126]
本稿では,ロボットが知覚と概念的視点の両方を捉えることができる深層世界モデルを提案する。
鍵となる革新は、架空の観測・放出を生成・拡張できる多モード潜在状態モデルである。
我々は,3つの部分観測可能なHRIタスクにおいて,人間の観察と信念を予測するために,モデルを実行した。
論文 参考訳(メタデータ) (2023-08-12T08:22:11Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Zero-shot visual reasoning through probabilistic analogical mapping [2.049767929976436]
視覚的確率論的アナロジカルマッピング(visual Probabilistic Analogical Mapping)は2つのアプローチを合成する視覚的推論のモデルである。
直接学習なしでは、VisiPAMはアナログマッピングタスクにおいて最先端のディープラーニングモデルよりも優れていることを示す。
さらに,ビジパムは,異なるカテゴリにまたがる3Dオブジェクトのマッピングを含む新しいタスクにおいて,人間のパフォーマンスパターンと密に一致している。
論文 参考訳(メタデータ) (2022-09-29T20:29:26Z) - CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing
Human Trust in Image Recognition Models [84.32751938563426]
我々は、深層畳み込みニューラルネットワーク(CNN)による決定を説明するための、新しい説明可能なAI(XAI)フレームワークを提案する。
単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。
本フレームワークは,機械の心と人間の心の相違を媒介し,対話における説明文のシーケンスを生成する。
論文 参考訳(メタデータ) (2021-09-03T09:46:20Z) - Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。
Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文 参考訳(メタデータ) (2021-04-07T06:18:58Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。