論文の概要: Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2503.04900v1
- Date: Thu, 06 Mar 2025 19:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:32.432108
- Title: Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning
- Title(参考訳): 自己教師付き学習による視覚表現からの記号列の抽出
- Authors: Victor Sebastian Martinez Pozos, Ivan Vladimir Meza Ruiz,
- Abstract要約: 自己教師付き学習(SSL)を用いた視覚データからシンボル表現を生成する新しい手法を提案する。
この手法の利点は、その解釈可能性である: シーケンスは、クロスアテンションを用いたデコーダ変換器によって生成される。
このアプローチは、ハイレベルなシーン理解に潜在的に適用可能な解釈可能なシンボル表現を作成する基盤となる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper explores the potential of abstracting complex visual information into discrete, structured symbolic sequences using self-supervised learning (SSL). Inspired by how language abstracts and organizes information to enable better reasoning and generalization, we propose a novel approach for generating symbolic representations from visual data. To learn these sequences, we extend the DINO framework to handle visual and symbolic information. Initial experiments suggest that the generated symbolic sequences capture a meaningful level of abstraction, though further refinement is required. An advantage of our method is its interpretability: the sequences are produced by a decoder transformer using cross-attention, allowing attention maps to be linked to specific symbols and offering insight into how these representations correspond to image regions. This approach lays the foundation for creating interpretable symbolic representations with potential applications in high-level scene understanding.
- Abstract(参考訳): 本稿では,複雑な視覚情報を自己教師付き学習(SSL)を用いて離散的,構造化された記号列に抽象化する可能性について検討する。
より優れた推論と一般化を可能にするために,言語が情報を抽象化し整理する方法に着想を得て,視覚データから記号表現を生成する新しい手法を提案する。
これらのシーケンスを学習するために、視覚的および象徴的な情報を扱うためにDINOフレームワークを拡張します。
初期の実験では、生成されたシンボリックシーケンスは意味のあるレベルの抽象化をキャプチャするが、さらなる改良が必要であることが示唆された。
本手法の利点は, クロスアテンションを用いたデコーダ変換器によってシーケンスが生成され, 特定のシンボルにアテンションマップをリンクさせ, それらの表現が画像領域とどのように対応するかの洞察を与えることである。
このアプローチは、ハイレベルなシーン理解に潜在的に適用可能な解釈可能なシンボル表現を作成する基盤となる。
関連論文リスト
- VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。
提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文 参考訳(メタデータ) (2024-10-30T16:11:05Z) - What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models [2.048226951354646]
そのような抽象表現の極端な形は記号である。
この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。
マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。
論文 参考訳(メタデータ) (2024-06-13T12:54:20Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。
我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。
さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文 参考訳(メタデータ) (2023-08-03T19:29:35Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization [66.35116147275568]
自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-20T08:43:10Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。