論文の概要: Unraveling the geometry of visual relational reasoning
- arxiv url: http://arxiv.org/abs/2502.17382v1
- Date: Mon, 24 Feb 2025 18:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:31.755426
- Title: Unraveling the geometry of visual relational reasoning
- Title(参考訳): 視覚的関係推論の幾何学の解明
- Authors: Jiaqi Shang, Gabriel Kreiman, Haim Sompolinsky,
- Abstract要約: 人間や他の動物は、形や色の定数を認識するなど抽象的な関係を容易に一般化するが、ニューラルネットワークは苦戦する。
ニューラル表現の幾何学的理論に基づいて、一般化を予測する表現的ジオメトリを示す。
我々の発見は、ニューラルネットワークが抽象的な関係を一般化する方法に関する幾何学的な洞察を与え、AIにおける人間のような視覚的推論の道を開く。
- 参考スコア(独自算出の注目度): 11.82509693248749
- License:
- Abstract: Humans and other animals readily generalize abstract relations, such as recognizing constant in shape or color, whereas neural networks struggle. To investigate how neural networks generalize abstract relations, we introduce SimplifiedRPM, a novel benchmark for systematic evaluation. In parallel, we conduct human experiments to benchmark relational difficulty, enabling direct model-human comparisons. Testing four architectures--ResNet-50, Vision Transformer, Wild Relation Network, and Scattering Compositional Learner (SCL)--we find that SCL best aligns with human behavior and generalizes best. Building on a geometric theory of neural representations, we show representational geometries that predict generalization. Layer-wise analysis reveals distinct relational reasoning strategies across models and suggests a trade-off where unseen rule representations compress into training-shaped subspaces. Guided by our geometric perspective, we propose and evaluate SNRloss, a novel objective balancing representation geometry. Our findings offer geometric insights into how neural networks generalize abstract relations, paving the way for more human-like visual reasoning in AI.
- Abstract(参考訳): 人間や他の動物は、形や色の定数を認識するなど抽象的な関係を容易に一般化するが、ニューラルネットワークは苦戦する。
ニューラルネットワークが抽象的関係をどのように一般化するかを検討するために,系統的評価のための新しいベンチマークであるSimplifiedRPMを導入する。
並行して、我々は人間実験を行い、関係性の困難さをベンチマークし、直接モデルと人間の比較を可能にする。
ResNet-50、Vision Transformer、Wild Relation Network、Scattering Compositional Learner(SCL)の4つのアーキテクチャをテストした結果、SCLは人間の行動に最も適しており、最も一般化されていることがわかった。
ニューラル表現の幾何学的理論に基づいて、一般化を予測する表現的ジオメトリを示す。
レイヤーワイズ分析は、モデル間で異なる関係推論戦略を明らかにし、目に見えない規則表現がトレーニング形式の部分空間に圧縮されるトレードオフを示唆する。
幾何的視点で導かれたSNRlossは、新しい目的バランス表現幾何学である。
我々の発見は、ニューラルネットワークが抽象的な関係を一般化する方法に関する幾何学的な洞察を与え、AIにおける人間のような視覚的推論の道を開く。
関連論文リスト
- Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling [9.609083308026786]
ディープニューラルネットワーク(DNN)はしばしば、オブジェクト認識中に特定のカテゴリに対するバイアスを示す。
本稿では,クラス固有の知覚多様体の幾何学的複雑さをモデルバイアスにリンクする幾何学的解析フレームワークを提案する。
本稿では,知覚多様体の幾何学的性質を計算するために設計された知覚多様体幾何学ライブラリを提案する。
論文 参考訳(メタデータ) (2025-02-17T13:54:02Z) - Exploring Geometric Representational Alignment through Ollivier-Ricci Curvature and Ricci Flow [0.0]
我々はOllivier-Ricci曲率とRicci流を人体と人工神経系の表現のアライメントを研究するツールとして利用する。
基礎研究として,VGG-Faceの人間対応版であるVGG-Faceの顔刺激の表現と,大規模なオンライン調査による人間の類似性判定を比較した。
論文 参考訳(メタデータ) (2025-01-01T18:33:48Z) - Graph Neural Networks Uncover Geometric Neural Representations in Reinforcement-Based Motor Learning [3.379988469252273]
グラフニューラルネットワーク(GNN)は、脳波データにおける神経表現の幾何学的性質を捉えることができる。
強化型運動学習が運動計画中の神経活動パターンに与える影響について検討した。
論文 参考訳(メタデータ) (2024-10-31T10:54:50Z) - Human-Like Geometric Abstraction in Large Pre-trained Neural Networks [6.650735854030166]
幾何学的視覚処理の認知科学における経験的結果を再考する。
幾何学的視覚処理における3つの重要なバイアスを同定する。
我々は、人間のバイアスを調査する文献からタスクをテストし、AIで使用される大規模なトレーニング済みニューラルネットワークモデルにより、より人間的な抽象幾何学的処理が示されることを示した。
論文 参考訳(メタデータ) (2024-02-06T17:59:46Z) - Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。
ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文 参考訳(メタデータ) (2023-10-16T02:12:32Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。