論文の概要: Breaking Token Into Concepts: Exploring Extreme Compression in Token Representation Via Compositional Shared Semantics
- arxiv url: http://arxiv.org/abs/2509.17737v2
- Date: Tue, 23 Sep 2025 08:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.931808
- Title: Breaking Token Into Concepts: Exploring Extreme Compression in Token Representation Via Compositional Shared Semantics
- Title(参考訳): 抽象概念を破る:構成共有セマンティックスによる表現における極端圧縮の探索
- Authors: Kavin R V, Pawan Goyal,
- Abstract要約: 多様な意味的面を蓄積する構成構造により,トークンがより効果的に表現できるかどうかを検討する。
製品量子化(PQ)を利用した新しいアプローチであるAggregate Semantic Grouping(ASG)を提案する。
その結果,ASGによるトークンの合成により,埋め込みパラメータの極端な圧縮が達成された。
これらの結果は、トークンを共有セマンティックビルディングブロックの組み合わせとして効果的にモデル化できるという原則を検証する。
- 参考スコア(独自算出の注目度): 4.822201556735661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard language models employ unique, monolithic embeddings for each token, potentially limiting their ability to capture the multifaceted nature of word meanings. We investigate whether tokens can be more effectively represented through a compositional structure that accumulates diverse semantic facets. To explore this, we propose Aggregate Semantic Grouping (ASG), a novel approach leveraging Product Quantization (PQ). We apply ASG to standard transformer architectures (mBERT, XLM-R, mT5) and evaluate this representational scheme across diverse tasks (NLI, NER, QA), as well as a biomedical domain-specific benchmark (BC5CDR) using BioBERT. Our findings demonstrate that representing tokens compositionally via ASG achieves extreme compression in embedding parameters (0.4--0.5\%) while maintaining $>$95\% task performance relative to the base model, even in generative tasks and extends to both cross lingual transfer and domain-specific settings. These results validate the principle that tokens can be effectively modeled as combinations of shared semantic building blocks. ASG offers a simple yet concrete method for achieving this, showcasing how compositional representations can capture linguistic richness while enabling compact yet semantically rich models.
- Abstract(参考訳): 標準言語モデルはトークンごとにユニークなモノリシックな埋め込みを採用しており、単語の意味の多面的な性質を捉える能力を制限する可能性がある。
多様な意味的面を蓄積する構成構造により,トークンがより効果的に表現できるかどうかを検討する。
そこで本研究では,製品量子化(PQ)を利用した新しいアプローチであるAggregate Semantic Grouping (ASG)を提案する。
我々は、標準的なトランスアーキテクチャ(mBERT, XLM-R, mT5)にASGを適用し、BioBERTを用いたバイオメディカルドメイン固有ベンチマーク(BC5CDR)と同様に、多様なタスク(NLI, NER, QA)にわたるこの表現スキームを評価する。
この結果から,ASGを介して構成的にトークンを表現することにより,組込みパラメータ(0.4~0.5%)の極端な圧縮を実現するとともに,生成タスクにおいても,ベースモデルに対して95~5%のタスク性能を維持し,クロスリンガル転送とドメイン固有設定の両方に拡張できることが示唆された。
これらの結果は、トークンを共有セマンティックビルディングブロックの組み合わせとして効果的にモデル化できるという原則を検証する。
ASGは、これを実現するための単純で具体的な方法を提供し、構成表現が言語的豊かさを捉えながら、コンパクトでセマンティックにリッチなモデルを実現する方法を示している。
関連論文リスト
- Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.294155819837931]
Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
論文 参考訳(メタデータ) (2025-05-26T19:59:22Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Improving Generalization in Language Model-Based Text-to-SQL Semantic
Parsing: Two Simple Semantic Boundary-Based Techniques [14.634536051274468]
LMトークン化器が生成するトークンの意味的境界を保存するためのトークン前処理手法を提案する。
シーケンスレベルでは、入力と出力の間に整列したコンポーネントの境界を示すために特別なトークンを使うことを提案する。
2つのテキストからセマンティック・パーシング・データセットによる実験結果から,トークン前処理は単純ではあるが,両タイプの一般化におけるLM性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-27T06:09:03Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。