論文の概要: Temporal Coding as a Substrate for Sensorimotor Object Inference: A Spiking Reinterpretation of Thousand Brains Architecture
- arxiv url: http://arxiv.org/abs/2605.22206v1
- Date: Thu, 21 May 2026 09:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.183493
- Title: Temporal Coding as a Substrate for Sensorimotor Object Inference: A Spiking Reinterpretation of Thousand Brains Architecture
- Title(参考訳): 感覚運動オブジェクト推論の基盤としてのテンポラルコーディング:数千の脳アーキテクチャのスパイク再解釈
- Authors: Joy Bose,
- Abstract要約: Thousand Brains 30-50 (TBT) とオープンソースのMontyフレームワークは、知覚型推論によるオブジェクト認識をモデル化している。
現在の実装では、各連絡先を濃密な浮動小数点ベクトルとして符号化している。
3つの検証可能な予測を導き、約450行のNumPyで4つのコンポーネントの実装を指定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Thousand Brains Theory (TBT) and its open-source Monty framework model object recognition through sensorimotor inference -- identifying objects by actively moving a sensor across their surface and building evidence contact by contact. The current implementation encodes each contact as a dense floating-point vector. While Monty tracks inter-step displacement and accumulates evidence across contacts, it treats the feature activation pattern at each contact as an unordered set - the directional sequence in which features are encountered carries no representational weight. In TBT, the sequence of contacts carries spatial meaning: knowing that feature A was felt before feature B during a left-to-right sweep tells you something about where A and B sit on the object. Dense vectors discard this ordering. We propose replacing dense vectors with rank-order spike packets: each contact produces a brief burst of neural events where the most strongly activated neuron fires first. The time gap between successive bursts implicitly encodes sensor displacement without explicit coordinate calculations. A biologically motivated learning rule (STDP) encodes traversal direction into synaptic weights. A learnable parameter lambda adjusts reliance on earlier versus recent contacts, adapting to each object's geometry. We derive three testable predictions and specify an implementation of four components in approximately 450 lines of NumPy. Three synthetic experiments confirm the core claims: temporal coding achieves perfect discrimination accuracy on objects with identical features in different spatial arrangements, where dense accumulation performs at chance; temporal coding maintains a 30-50 percentage point advantage across all tested noise levels; the adaptive lambda converges to distinct values, reflecting object geometric complexity. End-to-end evaluation on Monty's YCB benchmark is left for future work.
- Abstract(参考訳): Thousand Brains Theory(TBT)とそのオープンソースのMontyフレームワークは、センサーモデレーター推論によってオブジェクトの認識をモデル化する。
現在の実装では、各連絡先を濃密な浮動小数点ベクトルとして符号化している。
モンティはステップ間の変位を追跡して、各接触における特徴活性化パターンを非順序集合として扱うが、特徴に遭遇する方向列は表現の重みを伴わない。
TBTでは、接触のシーケンスは空間的な意味を持つ: 特徴Aが特徴Bの前に感じられたことを知ると、左右の掃除で、AとBがオブジェクトの上に座る場所について何かを教えてくれる。
デンスベクトルはこの順序を捨てる。
我々は、高密度ベクトルを階数スパイクパケットに置き換えることを提案し、それぞれの接触は、最も強く活性化されたニューロンが最初に発火する短時間の神経事象を発生させる。
連続するバースト間の時間ギャップは、明示的な座標計算なしでセンサ変位を暗黙的に符号化する。
生物学的動機付け学習規則(STDP)は、横断方向をシナプス重みに符号化する。
学習可能なパラメータラムダは、各オブジェクトの幾何学に適応して、早期と最近の接触への依存を調整する。
3つの検証可能な予測を導き、約450行のNumPyで4つのコンポーネントの実装を指定する。
3つの合成実験は、コアクレームを裏付ける: 時間的符号化は異なる空間的配置で同一の特徴を持つオブジェクトに対して完全な識別精度を達成する; 時間的符号化は、全ての試験されたノイズレベルに対して30~50パーセントの利点を維持する; 適応ラムダは異なる値に収束し、オブジェクトの幾何学的複雑さを反映する。
MontyのYCBベンチマークのエンドツーエンド評価は、今後の作業のために残されている。
関連論文リスト
- COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - On the Feasibility and Opportunity of Autoregressive 3D Object Detection [60.86546723351944]
AutoReg3Dは、検出をシーケンス生成としてキャストする自動回帰型3D検出器である。
さまざまなポイントクラウドやバックボーンに互換性があり、アンカーやNMSなしで、競合するnuScenesのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-09T05:46:53Z) - Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching [29.566669515949155]
IGOFormerは、固有の幾何学を特徴デコードに統合する、クエリベースのオブジェクト指向オブジェクト検出器である。
歴史的マッチングコストを適応的に集約するモメンタムベースのBipartite Matchingスキームを開発した。
航空機指向物体検出におけるIGOFormerの優位性を示す実験とアブレーション実験を行った。
論文 参考訳(メタデータ) (2026-02-14T11:40:56Z) - Decomposing and Fusing Intra- and Inter-Sensor Spatio-Temporal Signal for Multi-Sensor Wearable Human Activity Recognition [12.359681612030682]
本稿では,モダリティ変数間の関係をよりよくモデル化するDecomposeWHARモデルを提案する。
この分解は、改良されたDepth Separable Convolutionを通じて、各センサ内変数の高次元表現を生成する。
我々のモデルは、広く使われている3つのWHARデータセットにおいて優れた性能を示し、最先端のモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-19T01:52:28Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object
Detection [10.99534239215483]
物体の向きを正確に予測するために、位相シフトコーダ(PSC)と呼ばれる新しい微分可能な角度コーダを提案する。
オブジェクト指向物体検出における様々な周期的ファジィ問題に対する統一的なフレームワークを提供する。
3つのデータセットの視覚的分析と実験は、我々のアプローチの有効性と可能性を証明する。
論文 参考訳(メタデータ) (2022-11-11T17:31:25Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Human-Object Interaction Detection via Disentangled Transformer [63.46358684341105]
本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-04-20T08:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。