論文の概要: Semantic scene descriptions as an objective of human vision
- arxiv url: http://arxiv.org/abs/2209.11737v1
- Date: Fri, 23 Sep 2022 17:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:52:18.791012
- Title: Semantic scene descriptions as an objective of human vision
- Title(参考訳): 人間の視覚の目的としてのセマンティックなシーン記述
- Authors: Adrien Doerig, Tim C Kietzmann, Emily Allen, Yihan Wu, Thomas
Naselaris, Kendrick Kay, Ian Charest
- Abstract要約: 現代の計算手法を適用し, ビジュオ・セマンティック変換の基礎となる神経機構について検討した。
人為的なシーン記述に言語深層学習モデルを適用したセマンティック埋め込みを用いて,セマンティックシーン記述を符号化する脳領域の広く分布するネットワークを同定する。
- 参考スコア(独自算出の注目度): 0.2770822269241974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting the meaning of a visual scene requires not only identification
of its constituent objects, but also a rich semantic characterization of object
interrelations. Here, we study the neural mechanisms underlying visuo-semantic
transformations by applying modern computational techniques to a large-scale 7T
fMRI dataset of human brain responses elicited by complex natural scenes. Using
semantic embeddings obtained by applying linguistic deep learning models to
human-generated scene descriptions, we identify a widely distributed network of
brain regions that encode semantic scene descriptions. Importantly, these
semantic embeddings better explain activity in these regions than traditional
object category labels. In addition, they are effective predictors of activity
despite the fact that the participants did not actively engage in a semantic
task, suggesting that visuo-semantic transformations are a default mode of
vision. In support of this view, we then show that highly accurate
reconstructions of scene captions can be directly linearly decoded from
patterns of brain activity. Finally, a recurrent convolutional neural network
trained on semantic embeddings further outperforms semantic embeddings in
predicting brain activity, providing a mechanistic model of the brain's
visuo-semantic transformations. Together, these experimental and computational
results suggest that transforming visual input into rich semantic scene
descriptions may be a central objective of the visual system, and that focusing
efforts on this new objective may lead to improved models of visual information
processing in the human brain.
- Abstract(参考訳): 視覚的なシーンの意味を解釈するには、構成対象の識別だけでなく、オブジェクトの相互関係の豊かな意味的特徴も必要である。
本稿では, 複雑な自然シーンから引き出されたヒト脳反応の大規模7T fMRIデータセットに, 現代の計算手法を適用し, ビゾセマンティックトランスフォーメーションの基礎となる神経機構について検討する。
人為的なシーン記述に言語深層学習モデルを適用したセマンティック埋め込みを用いて,セマンティックシーン記述を符号化する脳領域の広く分布するネットワークを同定する。
重要なことに、これらのセマンティック埋め込みは、伝統的なオブジェクトカテゴリラベルよりも、これらの領域のアクティビティを説明するのがよい。
加えて、彼らは、参加者が積極的にセマンティックなタスクに従事していないにもかかわらず、活動の効果的な予測者であり、viso-semantic transformationがデフォルトの視覚モードであることを示唆している。
そこで本研究では,シーンキャプションの高精度な再構成を,脳活動パターンから直接線形に復号できることを示す。
最後に、意味埋め込みを訓練した繰り返し畳み込みニューラルネットワークは、脳活動の予測において意味埋め込みよりも優れており、脳のヴィスー・セマンティクス変換の機械論的モデルを提供する。
これらの実験および計算結果は、視覚入力をリッチなセマンティックなシーン記述に変換することが視覚システムの中心的な目的であり、この新たな目的に焦点を合わせることで、人間の脳における視覚情報処理モデルの改善につながることを示唆している。
関連論文リスト
- Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。