論文の概要: Better, But Not Sufficient: Testing Video ANNs Against Macaque IT Dynamics
- arxiv url: http://arxiv.org/abs/2601.03392v1
- Date: Tue, 06 Jan 2026 20:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.069819
- Title: Better, But Not Sufficient: Testing Video ANNs Against Macaque IT Dynamics
- Title(参考訳): ビデオANNがMacaque ITのダイナミクスに対抗
- Authors: Matteo Dunnhofer, Christian Micheloni, Kohitij Kar,
- Abstract要約: 下側頭葉(IT)大脳皮質のマカク性視覚経路について検討した。
我々は, 静的, 再帰的, ビデオベースANNモデルに対して, ナチュラルビデオ中の仮面IT応答を比較した。
現在のビデオモデルは、ITで表現される外見不変の時間計算よりも、外見バウンドなダイナミクスをよりよく捉えている。
- 参考スコア(独自算出の注目度): 9.82700229401299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feedforward artificial neural networks (ANNs) trained on static images remain the dominant models of the the primate ventral visual stream, yet they are intrinsically limited to static computations. The primate world is dynamic, and the macaque ventral visual pathways, specifically the inferior temporal (IT) cortex not only supports object recognition but also encodes object motion velocity during naturalistic video viewing. Does IT's temporal responses reflect nothing more than time-unfolded feedforward transformations, framewise features with shallow temporal pooling, or do they embody richer dynamic computations? We tested this by comparing macaque IT responses during naturalistic videos against static, recurrent, and video-based ANN models. Video models provided modest improvements in neural predictivity, particularly at later response stages, raising the question of what kind of dynamics they capture. To probe this, we applied a stress test: decoders trained on naturalistic videos were evaluated on "appearance-free" variants that preserve motion but remove shape and texture. IT population activity generalized across this manipulation, but all ANN classes failed. Thus, current video models better capture appearance-bound dynamics rather than the appearance-invariant temporal computations expressed in IT, underscoring the need for new objectives that encode biological temporal statistics and invariances.
- Abstract(参考訳): 静的画像に基づいてトレーニングされたフィードフォワード人工ニューラルネットワーク(ANN)は、霊長類の腹側視覚ストリームの主流モデルであるが、本質的には静的な計算に限られている。
霊長類の世界は動的であり、マカクの腹側視路、特に下側頭葉(IT)大脳皮質は、物体認識だけでなく、自然視ビデオ視聴時の物体の動き速度も符号化している。
ITの時間的応答は、時間アンフォールドフィードフォワード変換や、浅い時間的プールを伴うフレームワイズ機能、あるいはよりリッチな動的計算を具現化したものだけを反映しているのか?
我々は、自然なビデオ中のマカクなIT応答を静的、再帰的、およびビデオベースのANNモデルと比較することによって、これを検証した。
ビデオモデルは、特に後続の反応段階で、神経の予測率を緩やかに改善し、どのようなダイナミクスを捉えているのかという疑問を提起した。
自然なビデオで訓練されたデコーダは、動きを保ちながら形状やテクスチャを除去する「外観のない」変種で評価された。
IT集団の活動はこの操作全体で一般化したが、全てのANNクラスは失敗した。
したがって、現在のビデオモデルは、ITで表現される見かけ不変の時間的計算よりも、外観境界のダイナミクスをよりよく捉え、生物学的時間的統計と不変性をエンコードする新たな目的の必要性を強調している。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Temporal Conditioning Spiking Latent Variable Models of the Neural
Response to Natural Visual Scenes [29.592870472342337]
本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。
スパイクニューロンを使用して、記録された列車と直接一致するスパイク出力を生成します。
我々は,TeCoS-LVMモデルにより,よりリアルなスパイク活動が生成され,強力な代替手段よりも正確なスパイク統計に適合することを示す。
論文 参考訳(メタデータ) (2023-06-21T06:30:18Z) - Learning Neural Volumetric Representations of Dynamic Humans in Minutes [49.10057060558854]
本稿では,視覚的品質の競争力のある映像から,ダイナミックな人間のニューラルボリューム映像を学習するための新しい手法を提案する。
具体的には、ネットワークの表現力をよりよく人体に分散させるために、新しい部分ベースのボクセル化人間表現を定義する。
実験により,従来のシーンごとの最適化手法よりも100倍高速に学習できることが実証された。
論文 参考訳(メタデータ) (2023-02-23T18:57:01Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。