論文の概要: Human Gaze Boosts Object-Centered Representation Learning
- arxiv url: http://arxiv.org/abs/2501.02966v1
- Date: Mon, 06 Jan 2025 12:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:24.629402
- Title: Human Gaze Boosts Object-Centered Representation Learning
- Title(参考訳): Human Gazeがオブジェクト中心の表現学習を強化
- Authors: Timothy Schaumlöffel, Arthur Aubret, Gemma Roig, Jochen Triesch,
- Abstract要約: 近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
- 参考スコア(独自算出の注目度): 7.473473243713322
- License:
- Abstract: Recent self-supervised learning (SSL) models trained on human-like egocentric visual inputs substantially underperform on image recognition tasks compared to humans. These models train on raw, uniform visual inputs collected from head-mounted cameras. This is different from humans, as the anatomical structure of the retina and visual cortex relatively amplifies the central visual information, i.e. around humans' gaze location. This selective amplification in humans likely aids in forming object-centered visual representations. Here, we investigate whether focusing on central visual information boosts egocentric visual object learning. We simulate 5-months of egocentric visual experience using the large-scale Ego4D dataset and generate gaze locations with a human gaze prediction model. To account for the importance of central vision in humans, we crop the visual area around the gaze location. Finally, we train a time-based SSL model on these modified inputs. Our experiments demonstrate that focusing on central vision leads to better object-centered representations. Our analysis shows that the SSL model leverages the temporal dynamics of the gaze movements to build stronger visual representations. Overall, our work marks a significant step toward bio-inspired learning of visual representations.
- Abstract(参考訳): 近年の自己教師付き学習(SSL)モデルでは、人間に比べて画像認識タスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
これらのモデルは、ヘッドマウントカメラから収集された、生の均一な視覚入力でトレーニングする。
これはヒトと異なり、網膜と視覚野の解剖学的構造は、人間の視線周辺の中心的な視覚情報を比較的増幅する。
この人間の選択的な増幅は、おそらく対象中心の視覚表現を形成するのに役立つ。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
大規模なEgo4Dデータセットを用いて5ヶ月の自我中心の視覚体験をシミュレートし、人間の視線予測モデルを用いて視線位置を生成する。
ヒトにおける中心視の重要性を考慮するため、視線周辺の視覚領域を収穫する。
最後に、これらの修正された入力に対して、時間ベースのSSLモデルをトレーニングする。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
我々の分析では、SSLモデルは視線運動の時間的ダイナミクスを活用してより強力な視覚表現を構築する。
全体として、われわれの研究は視覚表現のバイオインスパイアされた学習に向けた重要な一歩である。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Visual attention information can be traced on cortical response but not
on the retina: evidence from electrophysiological mouse data using natural
images as stimuli [0.0]
一次視覚野(V1)では、約10%のニューロンのサブセットが、正解と非正解の視覚領域に対して異なる反応を示す。
網膜は、視覚的注意に関してナイーブなままであり、皮質反応は視覚的注意情報を解釈する。
論文 参考訳(メタデータ) (2023-08-01T13:09:48Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。