Fugu-MT 論文翻訳(概要): SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models

論文の概要: SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models

arxiv url: http://arxiv.org/abs/2602.21133v1
Date: Tue, 24 Feb 2026 17:29:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.862153
Title: SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models
Title（参考訳）: SOM-VQ:対話型生成モデルのためのトポロジーを考慮したトークン化
Authors: Alessandro Londei, Denise Lanzieri, Matteo Benati,
Abstract要約: 我々は,ベクトル量子化と自己組織化マップを組み合わせたトークン化手法であるSOM-VQを導入し,離散的なコードブックを学習する。 SOM-VQはより学習しやすいトークンシーケンスを生成し、コード空間に明示的な幾何学を提供する。我々は,運動構造,スムーズな時間的連続性,インタラクティブなユースケースがトポロジに配慮した制御を特に自然に行う領域である,人間の動作生成に焦点をあてる。
参考スコア（独自算出の注目度）: 41.99844472131922
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vector-quantized representations enable powerful discrete generative models but lack semantic structure in token space, limiting interpretable human control. We introduce SOM-VQ, a tokenization method that combines vector quantization with Self-Organizing Maps to learn discrete codebooks with explicit low-dimensional topology. Unlike standard VQ-VAE, SOM-VQ uses topology-aware updates that preserve neighborhood structure: nearby tokens on a learned grid correspond to semantically similar states, enabling direct geometric manipulation of the latent space. We demonstrate that SOM-VQ produces more learnable token sequences in the evaluated domains while providing an explicit navigable geometry in code space. Critically, the topological organization enables intuitive human-in-the-loop control: users can steer generation by manipulating distances in token space, achieving semantic alignment without frame-level constraints. We focus on human motion generation - a domain where kinematic structure, smooth temporal continuity, and interactive use cases (choreography, rehabilitation, HCI) make topology-aware control especially natural - demonstrating controlled divergence and convergence from reference sequences through simple grid-based sampling. SOM-VQ provides a general framework for interpretable discrete representations applicable to music, gesture, and other interactive generative domains.
Abstract（参考訳）: ベクトル量子化表現は、強力な離散生成モデルを可能にするが、トークン空間における意味構造がなく、解釈可能な人間の制御を制限する。我々は,ベクトル量子化と自己組織化マップを組み合わせたトークン化手法であるSOM-VQを導入し,離散コードブックを低次元トポロジーで学習する。標準的なVQ-VAEとは異なり、SOM-VQは近辺構造を保存するトポロジ対応の更新を使用する。我々は、SOM-VQが、より学習可能なトークンシーケンスを評価領域で生成し、コード空間において明確なナビゲーション可能な幾何を提供することを示した。ユーザーはトークン空間内で距離を操作でき、フレームレベルの制約なしにセマンティックアライメントを達成できる。本研究では, 運動構造, スムーズな時間的連続性, インタラクティブなユースケース(コレオグラフィー, リハビリテーション, HCI)がトポロジを特に自然に制御し, 単純なグリッドベースサンプリングによる参照シーケンスからの制御的発散と収束を示す。 SOM-VQは、音楽、ジェスチャー、その他の対話的生成領域に適用可能な離散表現を解釈するための一般的なフレームワークを提供する。

関連論文リスト

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought [55.65577137924979]
本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。 NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。 3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2026-02-27T12:04:07Z)
Inverting Self-Organizing Maps: A Unified Activation-Based Framework [39.146761527401424]
我々は,SOMの活性化パターンを逆転させて,微妙な幾何学的条件下での正確な入力を復元できることを示す。我々は,MUSIC (Manifold-Aware Unified SOM Inversion and Control) 更新ルールを導入する。合成ガウス混合系, MNIST と Faces in the Wild を用いたアプローチを検証した。
論文参考訳（メタデータ） (2026-01-20T11:02:54Z)
Neuro-Symbolic Spatial Reasoning in Segmentation [27.7231614319754]
Open-Vocabulary Semantic (OVSS)は、オープンなカテゴリの集合からピクセルレベルのラベルを割り当てる。我々はOVSSにニューロシンボリック(NeSy)空間推論を導入する。これは、OVSSでNeSy空間推論を探索する最初の試みである。
論文参考訳（メタデータ） (2025-10-17T17:35:34Z)
Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文参考訳（メタデータ） (2025-06-24T22:43:36Z)
A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。 GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文参考訳（メタデータ） (2024-06-19T22:30:08Z)
GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文参考訳（メタデータ） (2024-06-04T15:09:29Z)
Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks [10.880057430629126]
切り離された潜在空間は、通常、より良い意味分離性と幾何学的性質を持ち、より良い解釈可能性とより制御可能なデータ生成をもたらす。本研究では,より一般的な文意味的特徴の局所的な修正と制御を目的とした,文の絡み合いのより一般的な形態に着目した。本稿では,トランスフォーマベース言語であるオートエンコーダ(AE)と統合されたフローベース可逆ニューラルネットワーク(INN)機構を導入し,より分離性に優れた潜在空間を実現する。
論文参考訳（メタデータ） (2023-05-02T18:27:13Z)
Self-Organising Neural Discrete Representation Learning à la Kohonen [42.710124929514066]
自己組織化マップ(KSOM)のためのコホーネンの学習規則に基づく代替ベクトル量子化(VQ)アルゴリズムについて検討する。実験では, 十分に構成されたEMA-VQと比較して, トレーニング開始時にのみ, スピードアップが観察可能である。
論文参考訳（メタデータ） (2023-02-15T21:04:04Z)
Multiscale Graph Neural Network Autoencoders for Interpretable Scientific Machine Learning [0.0]
この研究の目的は、オートエンコーダベースのモデルにおいて、潜在空間解釈可能性と非構造化メッシュとの互換性という2つの制限に対処することである。これは、複雑な流体流れのアプリケーションのデモを含む、新しいグラフニューラルネットワーク(GNN)自動エンコーディングアーキテクチャの開発によって達成される。
論文参考訳（メタデータ） (2023-02-13T08:47:11Z)
Graph Adaptive Semantic Transfer for Cross-domain Sentiment Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文参考訳（メタデータ） (2022-05-18T07:47:01Z)
Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文参考訳（メタデータ） (2020-11-06T12:17:01Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。