論文の概要: Explaining Representation Learning with Perceptual Components
- arxiv url: http://arxiv.org/abs/2406.06930v1
- Date: Tue, 11 Jun 2024 04:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:35:03.959875
- Title: Explaining Representation Learning with Perceptual Components
- Title(参考訳): 知覚コンポーネントを用いた表現学習の解説
- Authors: Yavuz Yarici, Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib,
- Abstract要約: 自己教師付きモデルは明確な意味を持たない表現空間を作成する。
色,形状,テクスチャという3つの重要な知覚成分を用いて表現空間を解析する新しい手法を提案する。
我々のアプローチは表現空間の解釈可能性を高め、人間の視覚的知覚に共鳴する説明を提供する。
- 参考スコア(独自算出の注目度): 14.10876324116018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised models create representation spaces that lack clear semantic meaning. This interpretability problem of representations makes traditional explainability methods ineffective in this context. In this paper, we introduce a novel method to analyze representation spaces using three key perceptual components: color, shape, and texture. We employ selective masking of these components to observe changes in representations, resulting in distinct importance maps for each. In scenarios, where labels are absent, these importance maps provide more intuitive explanations as they are integral to the human visual system. Our approach enhances the interpretability of the representation space, offering explanations that resonate with human visual perception. We analyze how different training objectives create distinct representation spaces using perceptual components. Additionally, we examine the representation of images across diverse image domains, providing insights into the role of these components in different contexts.
- Abstract(参考訳): 自己教師付きモデルは明確な意味を持たない表現空間を作成する。
この表現の解釈可能性問題は、従来の説明可能性法をこの文脈では非効率にする。
本稿では,色,形状,テクスチャという3つの重要な知覚成分を用いて表現空間を解析する新しい手法を提案する。
我々はこれらの成分の選択的マスキングを用いて表現の変化を観察し、それぞれの重要なマップを区別する。
ラベルが存在しないシナリオでは、これらの重要地図は人間の視覚システムに不可欠なので、より直感的な説明を提供する。
我々のアプローチは表現空間の解釈可能性を高め、人間の視覚的知覚に共鳴する説明を提供する。
我々は,異なる学習対象が知覚的成分を用いて異なる表現空間をいかに作るかを分析する。
さらに,様々な画像領域にまたがる画像の表現について検討し,異なる文脈におけるこれらの構成要素の役割についての洞察を提供する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - Discrete and continuous representations and processing in deep learning:
Looking forward [18.28761409764605]
離散的かつ連続的な表現とそれらの処理を組み合わせることは、汎用的なインテリジェンスを示すシステムを構築する上で不可欠である、と我々は主張する。
両タイプの表現の利点を組み合わせるために、離散要素を含めることで、現在のニューラルネットワークを改善するいくつかの方法を提案し、議論する。
論文 参考訳(メタデータ) (2022-01-04T16:30:18Z) - Quantitative analysis of visual representation of sign elements in
COVID-19 context [2.9409535911474967]
本稿では, コンピュータ解析を用いて, 流行に言及した視覚的創造物に使用される要素を定量的に分析することを提案する。
The Covid Art MuseumのInstagramアカウントにまとめられた画像は、グローバルイベントに関する主観的な体験を表すために使用されるさまざまな要素を分析するために使用される。
本研究は, 画像に繰り返される要素が, 物語を創出するための要素と, サンプルで確立された関連関係を明らかにする。
論文 参考訳(メタデータ) (2021-12-15T15:54:53Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - The Geometry of Distributed Representations for Better Alignment,
Attenuated Bias, and Improved Interpretability [9.215513608145994]
単語、テキスト、画像、知識グラフなどの構造化データに対する高次元表現は、機械学習やデータマイニングで一般的に使用される。
これらの表現は解釈可能性の度合いが異なり、効率的な分散表現は次元マッピングへの特徴の喪失の犠牲となる。
その影響は、多くの表現やタスクで見られ、特に問題のあるものは、基礎となるデータから学習された社会的偏見が未知の次元や部分空間で捕捉され、隠蔽される言語表現である。
この研究は、これらの表現の透明性と解釈可能性に関連するこれらの問題に対処する。
論文 参考訳(メタデータ) (2020-11-25T01:04:11Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Survey on Visual Sentiment Analysis [87.20223213370004]
本稿では、関連する出版物をレビューし、視覚知覚分析の分野の概要を概観する。
また,3つの視点から一般的な視覚知覚分析システムの設計原理について述べる。
様々なレベルの粒度と、異なる方法でイメージに対する感情に影響を与えるコンポーネントを考慮し、問題の定式化について論じる。
論文 参考訳(メタデータ) (2020-04-24T10:15:22Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z) - Incorporating Visual Semantics into Sentence Representations within a
Grounded Space [20.784771968813747]
本研究では,中間表現空間である接地空間を学習することにより,視覚情報をテキスト表現に転送することを提案する。
本モデルは,従来の分類と意味的関連性タスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T12:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。