論文の概要: Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics
- arxiv url: http://arxiv.org/abs/2410.23603v1
- Date: Thu, 31 Oct 2024 03:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:24.501435
- Title: Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics
- Title(参考訳): マルチモーダルディープニューラルネットワークを用いた視覚美学から言語を遠ざける
- Authors: Colin Conwell, Christopher Hamblin, Chelsea Boccagno, David Mayo, Jesse Cummings, Leyla Isik, Andrei Barbu,
- Abstract要約: 我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
- 参考スコア(独自算出の注目度): 8.749640179057469
- License:
- Abstract: When we experience a visual stimulus as beautiful, how much of that experience derives from perceptual computations we cannot describe versus conceptual knowledge we can readily translate into natural language? Disentangling perception from language in visually-evoked affective and aesthetic experiences through behavioral paradigms or neuroimaging is often empirically intractable. Here, we circumnavigate this challenge by using linear decoding over the learned representations of unimodal vision, unimodal language, and multimodal (language-aligned) deep neural network (DNN) models to predict human beauty ratings of naturalistic images. We show that unimodal vision models (e.g. SimCLR) account for the vast majority of explainable variance in these ratings. Language-aligned vision models (e.g. SLIP) yield small gains relative to unimodal vision. Unimodal language models (e.g. GPT2) conditioned on visual embeddings to generate captions (via CLIPCap) yield no further gains. Caption embeddings alone yield less accurate predictions than image and caption embeddings combined (concatenated). Taken together, these results suggest that whatever words we may eventually find to describe our experience of beauty, the ineffable computations of feedforward perception may provide sufficient foundation for that experience.
- Abstract(参考訳): 視覚刺激が美しいと感じるとき、その経験のどれ程が、説明できない知覚計算に由来するのか?
行動パラダイムやニューロイメージングを通じて視覚的に誘発される情緒的・美的な経験において言語から遠ざかることはしばしば経験的に魅力的である。
ここでは、この課題を、一元的視覚、一元的言語、多元的(言語に整合した)ディープニューラルネットワーク(DNN)モデルの学習表現に対する線形デコードを用いて回避し、人間のナチュラルイメージの美的評価を予測する。
これらの評価において、一元的視覚モデル(例えばSimCLR)が説明可能なばらつきの大部分を占めることを示す。
言語対応の視覚モデル(例えばSLIP)は、単調な視覚に対して小さな利得が得られる。
単モーダル言語モデル(例えばGPT2)は、視覚的な埋め込みを条件に、(CLIPCap経由で)キャプションを生成することで、それ以上の利益は得られない。
キャプション埋め込みだけでは、画像とキャプション埋め込みの組み合わせ(連結)よりも精度の低い予測が得られる。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
関連論文リスト
- Modelling Multimodal Integration in Human Concept Processing with Vision-and-Language Models [7.511284868070148]
人間の意味表現が言語情報と感覚運動情報を統合している証拠が増えている。
マルチモーダル情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。
以上の結果から,VLM表現は言語と視覚のみのDNNよりも強く相関し,言語処理と機能的に関連する脳領域で活性化することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-25T10:08:37Z) - MindGPT: Interpreting What You See with Non-invasive Brain Recordings [24.63828455553959]
我々は,fMRI信号から知覚された視覚刺激を自然言語に解釈する,MindGPTと呼ばれる非侵襲的ニューラルデコーダを導入する。
実験の結果, 生成した単語列は, 目に見える刺激で伝達される視覚情報を真に表現していることがわかった。
論文 参考訳(メタデータ) (2023-09-27T15:35:20Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。