論文の概要: Unraveling the geometry of visual relational reasoning
- arxiv url: http://arxiv.org/abs/2502.17382v2
- Date: Fri, 25 Jul 2025 17:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 18:17:32.726443
- Title: Unraveling the geometry of visual relational reasoning
- Title(参考訳): 視覚的関係推論の幾何学の解明
- Authors: Jiaqi Shang, Gabriel Kreiman, Haim Sompolinsky,
- Abstract要約: 人間は「一貫性」を形や色で認識するなど抽象的な関係を簡単に一般化する一方、ニューラルネットワークは柔軟性のある推論を制限するのに苦労する。
本稿では,抽象的関係推論を体系的に評価する新しいベンチマークであるSimplifiedRPMを紹介する。
また、関係性の難易度を定量化するための人間実験を行い、モデルと人間の直接比較を可能にした。
我々の結果は、AIにおけるより人間的な視覚的推論の道を開くことで、関係推論のための幾何学的基盤を確立します。
- 参考スコア(独自算出の注目度): 11.82509693248749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans readily generalize abstract relations, such as recognizing "constant" in shape or color, whereas neural networks struggle, limiting their flexible reasoning. To investigate mechanisms underlying such generalization, we introduce SimplifiedRPM, a novel benchmark for systematically evaluating abstract relational reasoning, addressing limitations in prior datasets. In parallel, we conduct human experiments to quantify relational difficulty, enabling direct model-human comparisons. Testing four models, ResNet-50, Vision Transformer, Wild Relation Network, and Scattering Compositional Learner (SCL), we find that SCL generalizes best and most closely aligns with human behavior. Using a geometric approach, we identify key representation properties that accurately predict generalization and uncover a fundamental trade-off between signal and dimensionality: novel relations compress into training-induced subspaces. Layer-wise analysis reveals where relational structure emerges, highlights bottlenecks, and generates concrete hypotheses about abstract reasoning in the brain. Motivated by these insights, we propose SNRloss, a novel objective explicitly balancing representation geometry. Our results establish a geometric foundation for relational reasoning, paving the way for more human-like visual reasoning in AI and opening promising avenues for extending geometric analysis to broader cognitive tasks.
- Abstract(参考訳): 人間は「一貫性」を形や色で認識するなど抽象的な関係を簡単に一般化する一方、ニューラルネットワークは柔軟性のある推論を制限するのに苦労する。
このような一般化のメカニズムを解明するために,従来のデータセットの制約に対処する,抽象的関係推論を体系的に評価する新しいベンチマークであるSimplifiedRPMを導入する。
並行して、関係性の難易度を定量化するための人間の実験を行い、モデルと人間の直接比較を可能にした。
ResNet-50、Vision Transformer、Wild Relation Network、Scattering Compositional Learner (SCL)の4つのモデルを試したところ、SCLは人間の行動と最もよく一致していることがわかった。
幾何学的手法を用いて、一般化を正確に予測し、信号と次元の基本的なトレードオフを明らかにするキー表現特性を同定する。
レイヤーワイズ分析は、リレーショナル構造が現れる場所を明らかにし、ボトルネックを強調し、脳の抽象的推論に関する具体的な仮説を生成する。
これらの知見に触発されて、表現幾何学を明示的にバランスさせる新しい目的であるSNRlossを提案する。
我々の結果は、AIにおけるより人間的な視覚的推論のための幾何学的基礎を確立し、幾何学的分析をより広範な認知タスクに拡張するための有望な道を開いた。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Scalable Geometric Learning with Correlation-Based Functional Brain Networks [0.0]
相関行列は神経画像における機能的脳ネットワークの中心的な表現である。
伝統的な分析はユークリッド環境では、しばしば対の相互作用を独立に扱う。
本稿では、ユークリッド空間に相関行列を埋め込む新しい幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-31T01:35:50Z) - Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling [9.609083308026786]
ディープニューラルネットワーク(DNN)はしばしば、オブジェクト認識中に特定のカテゴリに対するバイアスを示す。
本稿では,クラス固有の知覚多様体の幾何学的複雑さをモデルバイアスにリンクする幾何学的解析フレームワークを提案する。
本稿では,知覚多様体の幾何学的性質を計算するために設計された知覚多様体幾何学ライブラリを提案する。
論文 参考訳(メタデータ) (2025-02-17T13:54:02Z) - Exploring Geometric Representational Alignment through Ollivier-Ricci Curvature and Ricci Flow [0.0]
我々はOllivier-Ricci曲率とRicci流を人体と人工神経系の表現のアライメントを研究するツールとして利用する。
基礎研究として,VGG-Faceの人間対応版であるVGG-Faceの顔刺激の表現と,大規模なオンライン調査による人間の類似性判定を比較した。
論文 参考訳(メタデータ) (2025-01-01T18:33:48Z) - Graph Neural Networks Uncover Geometric Neural Representations in Reinforcement-Based Motor Learning [3.379988469252273]
グラフニューラルネットワーク(GNN)は、脳波データにおける神経表現の幾何学的性質を捉えることができる。
強化型運動学習が運動計画中の神経活動パターンに与える影響について検討した。
論文 参考訳(メタデータ) (2024-10-31T10:54:50Z) - Deep Model Merging: The Sister of Neural Network Interpretability -- A Survey [4.013324399289249]
モデルマージと損失ランドスケープ解析の実証研究から,ニューラルネットワークのトレーニングと内部表現の出現を規定する現象までを,損失ランドスケープ幾何学のレンズを通して調査する。
本研究では,これらの分野の文献から得られた経験的観察を,モデム凸性,決定性,指向性,接続性の4つの主要な特徴について記述した。
論文 参考訳(メタデータ) (2024-10-16T18:14:05Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - A Relational Inductive Bias for Dimensional Abstraction in Neural
Networks [3.5063551678446494]
本稿では,関係ボトルネックが合成符号化による因子化表現の学習に与える影響について検討する。
このようなボトルネックは、一般化と学習効率の向上だけでなく、ネットワーク性能と人間の行動バイアスの整合性も示している。
論文 参考訳(メタデータ) (2024-02-28T15:51:05Z) - Human-Like Geometric Abstraction in Large Pre-trained Neural Networks [6.650735854030166]
幾何学的視覚処理の認知科学における経験的結果を再考する。
幾何学的視覚処理における3つの重要なバイアスを同定する。
我々は、人間のバイアスを調査する文献からタスクをテストし、AIで使用される大規模なトレーニング済みニューラルネットワークモデルにより、より人間的な抽象幾何学的処理が示されることを示した。
論文 参考訳(メタデータ) (2024-02-06T17:59:46Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Riemannian Residual Neural Networks [58.925132597945634]
残余ニューラルネットワーク(ResNet)の拡張方法を示す。
ResNetは、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。
論文 参考訳(メタデータ) (2023-10-16T02:12:32Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - A Cognitively-Inspired Neural Architecture for Visual Abstract Reasoning
Using Contrastive Perceptual and Conceptual Processing [14.201935774784632]
人間の認知に触発された視覚的抽象的推論タスクを解決するための新しいニューラルアーキテクチャを提案する。
この原則にインスパイアされたアーキテクチャは、反復的で自己コントラストの学習プロセスとして、視覚的抽象的推論をモデル化します。
機械学習データセットRAVENの実験は、CPCNetが以前公開されたすべてのモデルよりも高い精度を達成することを示している。
論文 参考訳(メタデータ) (2023-09-19T11:18:01Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。