論文の概要: Learning Visual-Semantic Subspace Representations
- arxiv url: http://arxiv.org/abs/2405.16213v2
- Date: Sat, 12 Apr 2025 17:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 14:15:03.440416
- Title: Learning Visual-Semantic Subspace Representations
- Title(参考訳): ビジュアルセマンティック部分空間表現の学習
- Authors: Gabriel Moreira, Manuel Marques, João Paulo Costeira, Alexander Hauptmann,
- Abstract要約: 我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
- 参考スコア(独自算出の注目度): 49.17165360280794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning image representations that capture rich semantic relationships remains a significant challenge. Existing approaches are either contrastive, lacking robust theoretical guarantees, or struggle to effectively represent the partial orders inherent to structured visual-semantic data. In this paper, we introduce a nuclear norm-based loss function, grounded in the same information theoretic principles that have proved effective in self-supervised learning. We present a theoretical characterization of this loss, demonstrating that, in addition to promoting class orthogonality, it encodes the spectral geometry of the data within a subspace lattice. This geometric representation allows us to associate logical propositions with subspaces, ensuring that our learned representations adhere to a predefined symbolic structure.
- Abstract(参考訳): リッチなセマンティックな関係を捉えた画像表現の学習は依然として大きな課題である。
既存のアプローチは対照的であり、堅牢な理論的保証を欠いているか、構造化された視覚意味データに固有の部分的な順序を効果的に表すのに苦労している。
本稿では,自己教師型学習において有効であることが証明された情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。
この損失の理論的特徴として、クラス直交の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
この幾何学的表現により、論理命題と部分空間を関連付けることができ、学習された表現が事前に定義された記号構造に忠実であることを保証する。
関連論文リスト
- Exploring a Principled Framework for Deep Subspace Clustering [9.347670574036563]
深部空間クラスタリング(PRO-DSC)のための原理的fRamewOrkを提案する。
PRO-DSCは構造化表現と自己表現係数を統一的に学習するように設計されている。
我々は、ある条件下での学習された最適表現が部分空間の和集合上にあることを証明した。
論文 参考訳(メタデータ) (2025-03-21T16:38:37Z) - Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Optimal synthesis embeddings [1.565361244756411]
単語集合に対する公平な埋め込み表現が満足すべきという直感的な考え方に基づく単語埋め込み合成手法を提案する。
本手法は,文の単純な言語的特徴を捉えることを目的とした探索課題の解法に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-10T18:06:33Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Neural Semantic Parsing with Extremely Rich Symbolic Meaning Representations [7.774674200374255]
分類学的階層におけるその位置に基づく概念のための新しい構成記号表現を導入する。
この表現はよりリッチな意味情報を提供し、解釈可能性を高める。
実験結果から,より豊かで複雑な意味表現に基づいて訓練された分類モデルは,評価基準を用いて従来のモデルに若干従属するが,語彙外概念を扱う場合よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-04-19T08:06:01Z) - Discovering Abstract Symbolic Relations by Learning Unitary Group Representations [7.303827428956944]
記号演算完了(SOC)の原理的アプローチについて検討する。
SOCは離散記号間の抽象的関係をモデル化する際、ユニークな挑戦となる。
SOCは最小限のモデル(双線型写像)で、新しい分解アーキテクチャで効率的に解けることを実証する。
論文 参考訳(メタデータ) (2024-02-26T20:18:43Z) - Grounded learning for compositional vector semantics [1.4344589271451351]
本研究では、スパイクニューラルネットワークアーキテクチャ内で構成分布意味論を実装する方法を提案する。
また,ラベル付き画像を用いて単語表現を訓練する手法についても述べる。
論文 参考訳(メタデータ) (2024-01-10T22:12:34Z) - Provable Compositional Generalization for Object-Centric Learning [55.658215686626484]
既知の概念の新規な構成に一般化する学習表現は、人間と機械の知覚のギャップを埋めるのに不可欠である。
本稿では,デコーダの構造的仮定を満足し,エンコーダとデコーダの整合性を強制するオートエンコーダが,構成を確実に一般化するオブジェクト中心表現を学習することを示す。
論文 参考訳(メタデータ) (2023-10-09T01:18:07Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Towards Understanding the Mechanism of Contrastive Learning via
Similarity Structure: A Theoretical Analysis [10.29814984060018]
Kernel Contrastive Learning (KCL) と呼ばれるカーネルベースのコントラスト学習フレームワークについて検討する。
本稿では,統計的依存関係の観点から学習表現の類似性構造を定式化する。
下流タスクの分類誤差の新しい上限を示し、これは我々の理論が比較学習の実証的成功と一致することを説明している。
論文 参考訳(メタデータ) (2023-04-01T21:53:29Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Equivariant Representation Learning via Class-Pose Decomposition [17.032782230538388]
データの対称性に同値な表現を学習するための一般的な方法を提案する。
コンポーネントは、それぞれ固有のデータクラスとポーズに意味的に対応します。
その結果,表現はデータの幾何を捉え,他の同変表現学習フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-07-07T06:55:52Z) - PROTOtypical Logic Tensor Networks (PROTO-LTN) for Zero Shot Learning [2.236663830879273]
論理ネットワーク(英: Logic Networks, LTN)は、ディープニューラルネットワークに根ざした微分可能な一階述語論理に基づくニューロシンボリックシステムである。
ここでは、ほとんどの意味的画像解釈タスクをエンコードする基本となるsubsumptionまたはtextttisOfClass述語に焦点を当てる。
本稿では,オブジェクト埋め込みと対応するクラスプロトタイプ間の距離の関数を真理レベルとする,共通のtextttisOfClass述語を提案する。
論文 参考訳(メタデータ) (2022-06-26T18:34:07Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Thirty years of Epistemic Specifications [8.339560855135575]
我々は、主観的リテラルと呼ばれるモーダル構造を持つ安定モデルセマンティクスの下で、解法論理プログラムを拡張した。
主観的リテラルを用いることで、プログラムのすべての安定モデルで正規リテラルが真かどうかを確認することができる。
形式的な意味論によって言語の基礎となる直観を捉えようとするいくつかの試みが与えられた。
論文 参考訳(メタデータ) (2021-08-17T15:03:10Z) - The Low-Dimensional Linear Geometry of Contextualized Word
Representations [27.50785941238007]
ELMOおよびBERTにおける文脈化単語表現の線形幾何学について検討する。
様々な言語特徴が低次元部分空間に符号化されていることを示す。
論文 参考訳(メタデータ) (2021-05-15T00:58:08Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。