論文の概要: Navigating Simply, Aligning Deeply: Winning Solutions for Mouse vs. AI 2025
- arxiv url: http://arxiv.org/abs/2602.00982v1
- Date: Sun, 01 Feb 2026 02:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.503953
- Title: Navigating Simply, Aligning Deeply: Winning Solutions for Mouse vs. AI 2025
- Title(参考訳): マウス対AI2025の勝利ソリューション
- Authors: Phu-Hoa Pham, Chi-Nguyen Tran, Dao Sy Duy Minh, Nguyen Lam Phu Quy, Huynh Trung Kiet,
- Abstract要約: 我々はNeurIPS 2025 Mouse vs. AI: Robust Visual Foraging Competitionで優勝したアプローチを提示する。
トラック1(Visual Robustness)では、アーキテクチャの単純さとターゲットコンポーネントを組み合わせることで、より優れた一般化が得られることを示す。
トラック2(ニューラルアライメント)では、16の畳み込み層とGLUベースのゲーティングを備えたディープResNetのようなアーキテクチャを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual robustness and neural alignment remain critical challenges in developing artificial agents that can match biological vision systems. We present the winning approaches from Team HCMUS_TheFangs for both tracks of the NeurIPS 2025 Mouse vs. AI: Robust Visual Foraging Competition. For Track 1 (Visual Robustness), we demonstrate that architectural simplicity combined with targeted components yields superior generalization, achieving 95.4% final score with a lightweight two-layer CNN enhanced by Gated Linear Units and observation normalization. For Track 2 (Neural Alignment), we develop a deep ResNet-like architecture with 16 convolutional layers and GLU-based gating that achieves top-1 neural prediction performance with 17.8 million parameters. Our systematic analysis of ten model checkpoints trained between 60K to 1.14M steps reveals that training duration exhibits a non-monotonic relationship with performance, with optimal results achieved around 200K steps. Through comprehensive ablation studies and failure case analysis, we provide insights into why simpler architectures excel at visual robustness while deeper models with increased capacity achieve better neural alignment. Our results challenge conventional assumptions about model complexity in visuomotor learning and offer practical guidance for developing robust, biologically-inspired visual agents.
- Abstract(参考訳): 視覚の堅牢性と神経のアライメントは、生物学的視覚システムと一致する人工エージェントを開発する上で、依然として重要な課題である。
We present the winning approach from Team HCMUS_TheFangs for both tracks of the NeurIPS 2025 Mouse vs. AI: Robust Visual Foraging Competition。
トラック1(Visual Robustness)では、アーキテクチャの単純さとターゲットコンポーネントを組み合わせることで、95.4%のファイナルスコアを達成し、Gated Linear Unitsによって強化された軽量な2層CNNと観測正規化を実現した。
トラック2(ニューラルアライメント)では、16の畳み込みレイヤとGLUベースのゲーティングを備えたディープResNetのようなアーキテクチャを開発し、1780万のパラメータでトップ1の神経予測性能を達成する。
60Kから1.14Mのステップでトレーニングされた10個のモデルチェックポイントの系統的解析により、トレーニング期間がパフォーマンスと非単調な関係を示し、200Kのステップで最適な結果が得られた。
包括的アブレーション研究と障害ケース分析を通じて、より単純なアーキテクチャが視覚的ロバスト性に優れ、能力の高いより深いモデルがより優れたニューラルアライメントを実現する理由を洞察する。
本研究は,ビジュモータ学習におけるモデル複雑性に関する従来の仮定に挑戦し,堅牢で生物学的に着想を得た視覚エージェントを開発するための実践的ガイダンスを提供する。
関連論文リスト
- Detection of retinal diseases using an accelerated reused convolutional network [3.5808917363708743]
ArConv層と呼ばれる新しい畳み込み層を組み込んだ新しい汎用モデルを作成します。
このモデルは携帯電話での使用に適した複雑さを持ち、疾患の存在を高精度に診断するタスクを実行することができる。
論文 参考訳(メタデータ) (2025-10-05T14:44:09Z) - Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness [1.7205106391379026]
物体認識で訓練された畳み込みニューラルネットワーク(CNN)は、高いタスク性能を実現するが、生物学的視覚と比較すると脆弱性を示す。
本稿では,VOneBlockと新しいSubcorticalBlockを組み合わせたハイブリッドCNNの新たなクラスであるEarly Vision Networks(EVNets)を紹介する。
最新のデータ拡張技術と組み合わせることでEVNetをさらに改善できることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:13:51Z) - Advancing the Biological Plausibility and Efficacy of Hebbian Convolutional Neural Networks [0.0]
本稿では,画像処理のための畳み込みニューラルネットワーク(CNN)へのヘビアン学習の統合について述べる。
ヘビアン学習は、局所的な教師なしの神経情報に基づいて特徴表現を形成する。
その結果, より複雑で受容的な領域を通じて, まばらな階層的学習の徴候がみられた。
論文 参考訳(メタデータ) (2025-01-06T12:29:37Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - UNet-2022: Exploring Dynamics in Non-isomorphic Architecture [52.04899592688968]
単純並列化による自己意図と畳み込みの利点を生かした並列非同型ブロックを提案する。
得られたU字型セグメンテーションモデルをUNet-2022と呼ぶ。
実験では、UNet-2022は明らかにレンジセグメンテーションタスクにおいてその性能を上回っている。
論文 参考訳(メタデータ) (2022-10-27T16:00:04Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。