論文の概要: Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception
- arxiv url: http://arxiv.org/abs/2509.15333v1
- Date: Thu, 18 Sep 2025 18:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.863681
- Title: Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception
- Title(参考訳): 効率的なフレキシブルマシン視覚知覚のための人間的適応視覚のエミュレーション
- Authors: Yulin Wang, Yang Yue, Yang Yue, Huanqian Wang, Haojun Jiang, Yizeng Han, Zanlin Ni, Yifan Pu, Minglei Shi, Rui Lu, Qisen Yang, Andrew Zhao, Zhuofan Xia, Shiji Song, Gao Huang,
- Abstract要約: 本稿では、"パッシブ"から"アクティブ"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介する。
AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化する。
アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからの画像処理を含む、9つのタスクにまたがる17のベンチマークで評価する。
- 参考スコア(独自算出の注目度): 93.20637973889434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is highly adaptive, efficiently sampling intricate environments by sequentially fixating on task-relevant regions. In contrast, prevailing machine vision models passively process entire scenes at once, resulting in excessive resource demands scaling with spatial-temporal input resolution and model size, yielding critical limitations impeding both future advancements and real-world application. Here we introduce AdaptiveNN, a general framework aiming to drive a paradigm shift from 'passive' to 'active, adaptive' vision models. AdaptiveNN formulates visual perception as a coarse-to-fine sequential decision-making process, progressively identifying and attending to regions pertinent to the task, incrementally combining information across fixations, and actively concluding observation when sufficient. We establish a theory integrating representation learning with self-rewarding reinforcement learning, enabling end-to-end training of the non-differentiable AdaptiveNN without additional supervision on fixation locations. We assess AdaptiveNN on 17 benchmarks spanning 9 tasks, including large-scale visual recognition, fine-grained discrimination, visual search, processing images from real driving and medical scenarios, language-driven embodied AI, and side-by-side comparisons with humans. AdaptiveNN achieves up to 28x inference cost reduction without sacrificing accuracy, flexibly adapts to varying task demands and resource budgets without retraining, and provides enhanced interpretability via its fixation patterns, demonstrating a promising avenue toward efficient, flexible, and interpretable computer vision. Furthermore, AdaptiveNN exhibits closely human-like perceptual behaviors in many cases, revealing its potential as a valuable tool for investigating visual cognition. Code is available at https://github.com/LeapLabTHU/AdaptiveNN.
- Abstract(参考訳): 人間の視覚は高度に適応し、タスク関連領域を逐次固定することで複雑な環境を効率的にサンプリングする。
対照的に、一般的なマシンビジョンモデルでは、シーン全体を一度に受動的に処理することで、空間的時間的入力の解像度とモデルサイズでスケールアップする過剰なリソース要求が発生し、将来の進歩と実世界の応用の両方を妨げる限界が生じる。
本稿では、"パッシブ"から"アクティブで適応的な"ビジョンモデルへのパラダイムシフトを促進するための一般的なフレームワークであるAdaptiveNNを紹介します。
AdaptiveNNは、視覚知覚を粗い連続的な意思決定プロセスとして定式化し、タスクに関連する領域を段階的に識別し、参加し、修正点を越えて情報を漸進的に結合し、十分であれば観察を積極的に終了する。
我々は、表現学習と自己回帰強化学習を統合する理論を確立し、固定位置のさらなる監督なしに、非微分可能適応NNのエンドツーエンドトレーニングを可能にする。
アダプティブNNは、大規模な視覚認識、きめ細かい識別、視覚検索、実際の運転と医療シナリオからのイメージの処理、言語駆動型実施AI、人間とのサイドバイサイド比較を含む、9つのタスクにまたがる17のベンチマークで評価する。
AdaptiveNNは、精度を犠牲にすることなく最大28倍の推論コスト削減を実現し、リトレーニングなしで様々なタスク要求やリソース予算に柔軟に対応し、その固定パターンを通じて解釈性を高め、効率的で柔軟で解釈可能なコンピュータビジョンへの有望な道を示す。
さらに、AdaptiveNNは多くのケースで人間に似た知覚行動を示しており、視覚認知を調査するための貴重なツールとしての可能性を明らかにしている。
コードはhttps://github.com/LeapLabTHU/AdaptiveNNで入手できる。
関連論文リスト
- Visualizing and Controlling Cortical Responses Using Voxel-Weighted Activation Maximization [0.0]
ディープニューラルネットワーク(DNN)は、人間の視覚系に類似した視覚表現に基づいて訓練されている。
DNNベースの符号化モデルにアクティベーションが適用可能であることを示す。
我々は個々のボクセルで予測応答に最適化された画像を生成する。
論文 参考訳(メタデータ) (2025-06-04T18:48:08Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-18T10:40:25Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。