Fugu-MT 論文翻訳(概要): Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning

論文の概要: Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2503.04900v1
Date: Thu, 06 Mar 2025 19:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.753561
Title: Extracting Symbolic Sequences from Visual Representations via Self-Supervised Learning
Title（参考訳）: 自己教師付き学習による視覚表現からの記号列の抽出
Authors: Victor Sebastian Martinez Pozos, Ivan Vladimir Meza Ruiz,
Abstract要約: 自己教師付き学習(SSL)を用いた視覚データからシンボル表現を生成する新しい手法を提案する。この手法の利点は、その解釈可能性である: シーケンスは、クロスアテンションを用いたデコーダ変換器によって生成される。このアプローチは、ハイレベルなシーン理解に潜在的に適用可能な解釈可能なシンボル表現を作成する基盤となる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper explores the potential of abstracting complex visual information into discrete, structured symbolic sequences using self-supervised learning (SSL). Inspired by how language abstracts and organizes information to enable better reasoning and generalization, we propose a novel approach for generating symbolic representations from visual data. To learn these sequences, we extend the DINO framework to handle visual and symbolic information. Initial experiments suggest that the generated symbolic sequences capture a meaningful level of abstraction, though further refinement is required. An advantage of our method is its interpretability: the sequences are produced by a decoder transformer using cross-attention, allowing attention maps to be linked to specific symbols and offering insight into how these representations correspond to image regions. This approach lays the foundation for creating interpretable symbolic representations with potential applications in high-level scene understanding.
Abstract（参考訳）: 本稿では,複雑な視覚情報を自己教師付き学習(SSL)を用いて離散的,構造化された記号列に抽象化する可能性について検討する。より優れた推論と一般化を可能にするために,言語が情報を抽象化し整理する方法に着想を得て,視覚データから記号表現を生成する新しい手法を提案する。これらのシーケンスを学習するために、視覚的および象徴的な情報を扱うためにDINOフレームワークを拡張します。初期の実験では、生成されたシンボリックシーケンスは意味のあるレベルの抽象化をキャプチャするが、さらなる改良が必要であることが示唆された。本手法の利点は, クロスアテンションを用いたデコーダ変換器によってシーケンスが生成され, 特定のシンボルにアテンションマップをリンクさせ, それらの表現が画像領域とどのように対応するかの洞察を与えることである。このアプローチは、ハイレベルなシーン理解に潜在的に適用可能な解釈可能なシンボル表現を作成する基盤となる。

関連論文リスト

"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文参考訳（メタデータ） (2024-10-30T16:11:05Z)
What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。 DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。 DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-09-12T16:41:47Z)
How structured are the representations in transformer-based vision encoders? An analysis of multi-object representations in vision-language models [2.048226951354646]
そのような抽象表現の極端な形は記号である。この研究は、視覚エンコーダにおけるそのような構造化された表現の状態を推定する。マルチオブジェクトシーンにおける基本的な下流タスクにおいて、これらのモデルの障害モードを引き起こすネットワークダイナミクスを示す。
論文参考訳（メタデータ） (2024-06-13T12:54:20Z)
Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。 AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文参考訳（メタデータ） (2023-10-03T05:40:56Z)
Goal Space Abstraction in Hierarchical Reinforcement Learning via Set-Based Reachability Analysis [0.5409704301731713]
本稿では,目標表現と階層的ポリシの両方を同時に学習するFeudal HRLアルゴリズムを提案する。複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能であり、データ効率のよい学習結果をもたらすことを示す。
論文参考訳（メタデータ） (2023-09-14T12:39:26Z)
On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文参考訳（メタデータ） (2023-08-03T19:29:35Z)
Symbolic Visual Reinforcement Learning: A Scalable Framework with Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文参考訳（メタデータ） (2022-12-30T17:50:54Z)
Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文参考訳（メタデータ） (2022-06-13T18:16:40Z)
Constellation: Learning relational abstractions over objects for compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文参考訳（メタデータ） (2021-07-23T11:59:40Z)
Inducing Meaningful Units from Character Sequences with Dynamic Capacity Slot Attention [12.25208417841772]
文字列の抽象的意味単位を学習するための教師なし分布法を提案する。シーケンスをセグメント化するのではなく、Dynamic Capacity Slot Attentionモデルは、シーケンス内のオブジェクトの連続的な表現を検出する。
論文参考訳（メタデータ） (2021-02-01T23:11:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。