Fugu-MT 論文翻訳(概要): Fully Distributed, Flexible Compositional Visual Representations via Soft Tensor Products

論文の概要: Fully Distributed, Flexible Compositional Visual Representations via Soft Tensor Products

arxiv url: http://arxiv.org/abs/2412.04671v3
Date: Thu, 23 Jan 2025 01:05:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 16:15:53.430502
Title: Fully Distributed, Flexible Compositional Visual Representations via Soft Tensor Products
Title（参考訳）: ソフトテンソル製品による完全分散フレキシブルな構成的視覚表現
Authors: Bethia Sun, Maurice Pagnucco, Yang Song,
Abstract要約: 我々は,構成構造を本質的に分散した柔軟な方法でエンコードする表現形式であるSoft TPRを紹介する。我々は、ソフトTPRが従来の非絡み合いの代替よりも一貫して優れていることを示す。これらの知見は、構成構造を表現するための分散的で柔軟なアプローチの可能性を浮き彫りにしている。
参考スコア（独自算出の注目度）: 13.306125510884563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since the inception of the classicalist vs. connectionist debate, it has been argued that the ability to systematically combine symbol-like entities into compositional representations is crucial for human intelligence. In connectionist systems, the field of disentanglement has gained prominence for its ability to produce explicitly compositional representations; however, it relies on a fundamentally symbolic, concatenative representation of compositional structure that clashes with the continuous, distributed foundations of deep learning. To resolve this tension, we extend Smolensky's Tensor Product Representation (TPR) and introduce Soft TPR, a representational form that encodes compositional structure in an inherently distributed, flexible manner, along with Soft TPR Autoencoder, a theoretically-principled architecture designed specifically to learn Soft TPRs. Comprehensive evaluations in the visual representation learning domain demonstrate that the Soft TPR framework consistently outperforms conventional disentanglement alternatives -- achieving state-of-the-art disentanglement, boosting representation learner convergence, and delivering superior sample efficiency and low-sample regime performance in downstream tasks. These findings highlight the promise of a distributed and flexible approach to representing compositional structure by potentially enhancing alignment with the core principles of deep learning over the conventional symbolic approach.
Abstract（参考訳）: 古典主義者対コネクショナリスト論争の発端から、記号のような実体を構成表現に体系的に結合する能力は人間の知性にとって重要であると論じられている。コネクショニストシステムでは、非絡み合いの分野は、明示的な構成的表現を作り出す能力で有名になったが、それは基本的に象徴的で結合的な構成的構造の表現に依存しており、深層学習の継続的な分散基盤と衝突している。この緊張を解消するために、スモレンスキーのテンソル製品表現(TPR)を拡張し、ソフトTPR(Soft TPR)の学習に特化して設計された理論的なアーキテクチャであるSoft TPR Autoencoderとともに、構成構造を本質的に分散して柔軟な方法で符号化する表現形式を導入した。視覚表現学習領域における包括的評価は、ソフトTPRフレームワークが従来型のアンタングルメントの代替品を一貫して上回り、最先端のアンタングルメントを実現し、表現学習者の収束を高め、下流タスクにおいて優れたサンプル効率と低サンプルレギュレーション性能を提供することを示した。これらの知見は,従来の記号的アプローチよりも深層学習の根本原理との整合性を高めることにより,構成構造を表現するための分散的かつ柔軟なアプローチの可能性を浮き彫りにした。

関連論文リスト

CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT [9.44589968698834]
CoTZeroはアノテーションなしのパラダイムで、2つのコンポーネントがある。 CoTZeroは視覚的プリミティブを抽出し、構造化された質問推論形式に構成する。合成されたCoTデータに基づいて構築された認知対応トレーニングコンポーネントでは,認知的コヒーレントな検証リワードを導入する。
論文参考訳（メタデータ） (2026-02-09T07:26:40Z)
Sparsification and Reconstruction from the Perspective of Representation Geometry [10.834177456685538]
スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールである。本研究は,表現幾何学の観点から,空間の原理を説明する。具体的には、表現を理解し、表現の制約を取り入れることの必要性を強調している。
論文参考訳（メタデータ） (2025-05-28T15:54:33Z)
Distribution-Conditional Generation: From Class Distribution to Creative Generation [39.93527514513576]
DisTokは、クラス分散を潜在空間にマッピングし、それらを創造的な概念のトークンにデコードするエンコーダ・デコーダフレームワークである。 DisTokは、テキストイメージアライメントと人間の好みスコアで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-06T16:07:12Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
SYNTHIA: Novel Concept Design with Affordance Composition [114.19366716161655]
所望の価格に基づいて,新規で機能的なコヒーレントなデザインを生成するためのフレームワークであるSynTHIAを紹介する。我々は,我々のオントロジーに基づくカリキュラム学習手法を開発し,細粒度T2Iモデルと対比して,段階的に手頃な構成を学習する。実験の結果,SynTHIAは最先端のT2Iモデルよりも優れていた。
論文参考訳（メタデータ） (2025-02-25T02:54:11Z)
Systematic Abductive Reasoning via Diverse Relation Representations in Vector-symbolic Architecture [10.27696004820717]
ベクトルシンボリックアーキテクチャ(VSA)における多様な関係表現(Rel-SAR)を持つ体系的帰納的推論モデルを提案する。記号的推論ポテンシャルを持つ表現を導出するために、様々な種類の原子ベクトルが数値的、周期的、論理的意味論を表すだけでなく、構造化された高次元表現(S)も導入する。体系的推論のために,これらの関係表現を統合する統一フレームワークにおいて,新しい数値および論理関数を提案し,規則の推論と一般化の実行を行う。
論文参考訳（メタデータ） (2025-01-21T05:17:08Z)
NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization [17.49136753589057]
NeSyCoCoは、シンボリック表現を生成し、それらを微分可能なニューラル計算にマッピングする、ニューロシンボリックフレームワークである。我々のフレームワークは、ReaSCANとCLEVR-CoGenT合成一般化ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-12-20T05:48:58Z)
Learning Visual-Semantic Subspace Representations [49.17165360280794]
我々は,自己教師型学習に有効な情報理論の原理を基礎として,核ノルムに基づく損失関数を導入する。この損失の理論的特徴として、クラス性の促進に加えて、部分空間格子内のデータのスペクトル幾何学を符号化していることを示す。
論文参考訳（メタデータ） (2024-05-25T12:51:38Z)
Generalized Holographic Reduced Representations [6.161066669674775]
一般ホログラフィックリダクション(GHRR)はフーリエホログラフィックリダクション(FHRR)の拡張である GHRRは柔軟で非可換なバインディング操作を導入し、複雑なデータ構造のエンコーディングを改善する。
論文参考訳（メタデータ） (2024-05-15T20:37:48Z)
Discovering Abstract Symbolic Relations by Learning Unitary Group Representations [7.303827428956944]
記号演算完了(SOC)の原理的アプローチについて検討する。 SOCは離散記号間の抽象的関係をモデル化する際、ユニークな挑戦となる。 SOCは最小限のモデル(双線型写像)で、新しい分解アーキテクチャで効率的に解けることを実証する。
論文参考訳（メタデータ） (2024-02-26T20:18:43Z)
Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-19T10:16:24Z)
Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文参考訳（メタデータ） (2023-10-03T05:40:56Z)
Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文参考訳（メタデータ） (2023-09-22T20:15:37Z)
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment [124.57488600605822]
クロスモーダルな衣料品の合成と操作は、ファッションデザイナーが衣料品を作る方法に大きな恩恵をもたらすだろう。クロスモーダルな衣服合成と操作のための拡散型パイプラインDiffClothを紹介する。 CM-Fashionベンチマークの実験により、DiffClothはどちらも最先端の衣服合成結果を得ることが示された。
論文参考訳（メタデータ） (2023-08-22T05:43:33Z)
Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文参考訳（メタデータ） (2023-05-26T21:10:11Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Decomposed Soft Prompt Guided Fusion Enhancing for Compositional Zero-Shot Learning [15.406125901927004]
本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
論文参考訳（メタデータ） (2022-11-19T12:29:12Z)
Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文参考訳（メタデータ） (2021-09-15T02:26:07Z)
Enriching Transformers with Structured Tensor-Product Representations for Abstractive Summarization [131.23966358405767]
抽象的な要約のタスクに対して,明示的に構成された製品表現(TPR)をTP-TRANSFORMERに適用する。モデルの主な特徴は、トークンごとに2つの別々の表現を符号化することで導入する構造バイアスである。本稿では,TP-TRANSFORMER が Transformer と TP-TRANSFORMER より優れていることを示す。
論文参考訳（メタデータ） (2021-06-02T17:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。