論文の概要: Temporal Slowness in Central Vision Drives Semantic Object Learning
- arxiv url: http://arxiv.org/abs/2602.04462v1
- Date: Wed, 04 Feb 2026 11:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.511141
- Title: Temporal Slowness in Central Vision Drives Semantic Object Learning
- Title(参考訳): 中心視における時間的スローネスは意味的物体学習を駆動する
- Authors: Timothy Schaumlöffel, Arthur Aubret, Gemma Roig, Jochen Triesch,
- Abstract要約: 人間は最小限の監督力で自我中心の視覚ストリームから意味オブジェクト表現を取得する。
本研究では,人間の視覚体験から意味的対象表現を形成する上で,中心視とスローネス学習が果たす役割について検討した。
- 参考スコア(独自算出の注目度): 10.92192887447196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans acquire semantic object representations from egocentric visual streams with minimal supervision. Importantly, the visual system processes with high resolution only the center of its field of view and learns similar representations for visual inputs occurring close in time. This emphasizes slowly changing information around gaze locations. This study investigates the role of central vision and slowness learning in the formation of semantic object representations from human-like visual experience. We simulate five months of human-like visual experience using the Ego4D dataset and generate gaze coordinates with a state-of-the-art gaze prediction model. Using these predictions, we extract crops that mimic central vision and train a time-contrastive Self-Supervised Learning model on them. Our results show that combining temporal slowness and central vision improves the encoding of different semantic facets of object representations. Specifically, focusing on central vision strengthens the extraction of foreground object features, while considering temporal slowness, especially during fixational eye movements, allows the model to encode broader semantic information about objects. These findings provide new insights into the mechanisms by which humans may develop semantic object representations from natural visual experience.
- Abstract(参考訳): 人間は最小限の監督力で自我中心の視覚ストリームから意味オブジェクト表現を取得する。
重要なことは、高解像度の視覚システムは視野の中心のみを処理し、時間に近い視覚入力に対して同様の表現を学ぶことである。
これは、視線位置に関する情報を徐々に変化させることを強調している。
本研究では,人間の視覚体験から意味的対象表現を形成する上で,中心視とスローネス学習が果たす役割について検討した。
我々は,Ego4Dデータセットを用いて5ヶ月の人間の視覚体験をシミュレートし,最先端の視線予測モデルを用いて視線座標を生成する。
これらの予測を用いて、中心的な視覚を模倣する作物を抽出し、その上で時間差のある自己監督学習モデルを訓練する。
この結果から,時間的遅さと中心的視覚を組み合わせることで,物体表現の異なる意味的面の符号化が向上することが示唆された。
具体的には、特に固定眼球運動の時間的遅さを考慮しつつ、前景の物体の特徴の抽出を強化することにより、対象物に関するより広範な意味情報を符号化することができる。
これらの知見は、人間が自然な視覚経験から意味的オブジェクト表現を開発するメカニズムに関する新たな洞察を与える。
関連論文リスト
- Simulated Cortical Magnification Supports Self-Supervised Object Learning [8.07351541700131]
近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。
本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
論文 参考訳(メタデータ) (2025-09-19T08:28:06Z) - Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文 参考訳(メタデータ) (2025-05-27T18:09:02Z) - Human Gaze Boosts Object-Centered Representation Learning [7.473473243713322]
近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
論文 参考訳(メタデータ) (2025-01-06T12:21:40Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。