Fugu-MT 論文翻訳(概要): Semantic scene descriptions as an objective of human vision

論文の概要: Semantic scene descriptions as an objective of human vision

arxiv url: http://arxiv.org/abs/2209.11737v1
Date: Fri, 23 Sep 2022 17:34:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 13:52:18.791012
Title: Semantic scene descriptions as an objective of human vision
Title（参考訳）: 人間の視覚の目的としてのセマンティックなシーン記述
Authors: Adrien Doerig, Tim C Kietzmann, Emily Allen, Yihan Wu, Thomas Naselaris, Kendrick Kay, Ian Charest
Abstract要約: 現代の計算手法を適用し, ビジュオ・セマンティック変換の基礎となる神経機構について検討した。人為的なシーン記述に言語深層学習モデルを適用したセマンティック埋め込みを用いて,セマンティックシーン記述を符号化する脳領域の広く分布するネットワークを同定する。
参考スコア（独自算出の注目度）: 0.2770822269241974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interpreting the meaning of a visual scene requires not only identification of its constituent objects, but also a rich semantic characterization of object interrelations. Here, we study the neural mechanisms underlying visuo-semantic transformations by applying modern computational techniques to a large-scale 7T fMRI dataset of human brain responses elicited by complex natural scenes. Using semantic embeddings obtained by applying linguistic deep learning models to human-generated scene descriptions, we identify a widely distributed network of brain regions that encode semantic scene descriptions. Importantly, these semantic embeddings better explain activity in these regions than traditional object category labels. In addition, they are effective predictors of activity despite the fact that the participants did not actively engage in a semantic task, suggesting that visuo-semantic transformations are a default mode of vision. In support of this view, we then show that highly accurate reconstructions of scene captions can be directly linearly decoded from patterns of brain activity. Finally, a recurrent convolutional neural network trained on semantic embeddings further outperforms semantic embeddings in predicting brain activity, providing a mechanistic model of the brain's visuo-semantic transformations. Together, these experimental and computational results suggest that transforming visual input into rich semantic scene descriptions may be a central objective of the visual system, and that focusing efforts on this new objective may lead to improved models of visual information processing in the human brain.
Abstract（参考訳）: 視覚的なシーンの意味を解釈するには、構成対象の識別だけでなく、オブジェクトの相互関係の豊かな意味的特徴も必要である。本稿では, 複雑な自然シーンから引き出されたヒト脳反応の大規模7T fMRIデータセットに, 現代の計算手法を適用し, ビゾセマンティックトランスフォーメーションの基礎となる神経機構について検討する。人為的なシーン記述に言語深層学習モデルを適用したセマンティック埋め込みを用いて,セマンティックシーン記述を符号化する脳領域の広く分布するネットワークを同定する。重要なことに、これらのセマンティック埋め込みは、伝統的なオブジェクトカテゴリラベルよりも、これらの領域のアクティビティを説明するのがよい。加えて、彼らは、参加者が積極的にセマンティックなタスクに従事していないにもかかわらず、活動の効果的な予測者であり、viso-semantic transformationがデフォルトの視覚モードであることを示唆している。そこで本研究では,シーンキャプションの高精度な再構成を,脳活動パターンから直接線形に復号できることを示す。最後に、意味埋め込みを訓練した繰り返し畳み込みニューラルネットワークは、脳活動の予測において意味埋め込みよりも優れており、脳のヴィスー・セマンティクス変換の機械論的モデルを提供する。これらの実験および計算結果は、視覚入力をリッチなセマンティックなシーン記述に変換することが視覚システムの中心的な目的であり、この新たな目的に焦点を合わせることで、人間の脳における視覚情報処理モデルの改善につながることを示唆している。

関連論文リスト

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) [22.244699182222824]
トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。 MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
論文参考訳（メタデータ） (2025-05-26T14:18:15Z)
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文参考訳（メタデータ） (2025-04-01T08:20:55Z)
LaVCa: LLM-assisted Visual Cortex Captioning [2.8265531928694116]
近年のディープニューラルネットワーク (DNN) を用いた符号化モデルは, ボクセル活動の予測に成功している。本稿では,Voxelが選択された画像のキャプションを生成するために,LLM支援型ビジュアルコーテックスキャプション(LaVCa)を提案する。
論文参考訳（メタデータ） (2025-02-19T10:37:04Z)
LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文参考訳（メタデータ） (2024-09-26T15:57:08Z)
Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。 Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文参考訳（メタデータ） (2024-09-18T16:19:57Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
MindSemantix: Deciphering Brain Visual Experiences with a Brain-Language Model [45.18716166499859]
fMRIで捉えた脳の活動を通して人間の視覚体験を解読することは、魅力的で最先端の課題である。我々は、LLMが視覚的に誘発される脳活動のセマンティックな内容を理解することができる新しいマルチモーダルフレームワークであるMindSemantixを紹介した。 MindSemantixは、脳の活動から派生した視覚情報と意味情報に深く根ざした高品質なキャプションを生成する。
論文参考訳（メタデータ） (2024-05-29T06:55:03Z)
Neuro-Vision to Language: Enhancing Brain Recording-based Visual Reconstruction and Language Interaction [8.63068449082585]
非侵襲的な脳記録の復号化は、人間の認知の理解を深める鍵となる。本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。マルチモーダル大モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを改良した。
論文参考訳（メタデータ） (2024-04-30T10:41:23Z)
Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。 LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2024-04-23T16:59:02Z)
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文参考訳（メタデータ） (2022-11-13T17:04:05Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。