論文の概要: Disentangling Linguistic Features with Dimension-Wise Analysis of Vector Embeddings
- arxiv url: http://arxiv.org/abs/2504.14766v1
- Date: Sun, 20 Apr 2025 23:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:17:29.515285
- Title: Disentangling Linguistic Features with Dimension-Wise Analysis of Vector Embeddings
- Title(参考訳): ベクトル埋め込みの次元幅解析による言語的特徴の分散化
- Authors: Saniya Karwa, Navpreet Singh,
- Abstract要約: 本稿では,異なる言語特性(LP)を符号化したベクトル埋め込みの特定の次元を明らかにするための枠組みを提案する。
本稿では,同義語,否定語,時制,量などの10つの重要な言語的特徴を分離するLinguistically Distinct Sentence Pairsデータセットを紹介する。
このデータセットを用いて,様々な手法を用いてBERT埋め込みを分析し,各LPの最も影響力のある次元を同定する。
我々の研究結果は、否定や極性といった特定の性質が特定の次元で強固に符号化されている一方で、同義語のような他の性質はより複雑なパターンを示すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the inner workings of neural embeddings, particularly in models such as BERT, remains a challenge because of their high-dimensional and opaque nature. This paper proposes a framework for uncovering the specific dimensions of vector embeddings that encode distinct linguistic properties (LPs). We introduce the Linguistically Distinct Sentence Pairs (LDSP-10) dataset, which isolates ten key linguistic features such as synonymy, negation, tense, and quantity. Using this dataset, we analyze BERT embeddings with various methods, including the Wilcoxon signed-rank test, mutual information, and recursive feature elimination, to identify the most influential dimensions for each LP. We introduce a new metric, the Embedding Dimension Impact (EDI) score, which quantifies the relevance of each embedding dimension to a LP. Our findings show that certain properties, such as negation and polarity, are robustly encoded in specific dimensions, while others, like synonymy, exhibit more complex patterns. This study provides insights into the interpretability of embeddings, which can guide the development of more transparent and optimized language models, with implications for model bias mitigation and the responsible deployment of AI systems.
- Abstract(参考訳): 特にBERTのようなモデルにおいて、神経埋め込みの内部動作を理解することは、その高次元で不透明な性質のため、依然として課題である。
本稿では,異なる言語特性(LP)を符号化したベクトル埋め込みの特定の次元を明らかにするための枠組みを提案する。
我々は,同義語,否定語,時制,量などの10つの重要な言語的特徴を分離する言語学的固有文対(LDSP-10)データセットを紹介する。
このデータセットを用いて、Wilcoxon符号ランクテスト、相互情報、再帰的特徴除去などの様々な手法を用いてBERT埋め込みを分析し、各LPの最も影響力のある次元を同定する。
本稿では,各埋め込み次元とLPの関係を定量化する新しい指標である埋め込み次元インパクト(EDI)スコアを導入する。
我々の研究結果は、否定や極性といった特定の性質が特定の次元で強固に符号化されている一方で、同義語のような他の性質はより複雑なパターンを示すことを示している。
この研究は、より透明で最適化された言語モデルの開発を導く、埋め込みの解釈可能性に関する洞察を提供する。
関連論文リスト
- LayerFlow: Layer-wise Exploration of LLM Embeddings using Uncertainty-aware Interlinked Projections [11.252261879736102]
LayerFlowはビジュアル分析ワークスペースで、リンクされたプロジェクション設計に埋め込みを表示する。
変換、表現、解釈の不確実性を伝達する。
提案するワークスペースのユーザビリティについて,再現性およびエキスパートケーススタディを通じて紹介する。
論文 参考訳(メタデータ) (2025-04-09T12:24:58Z) - The Complexity of Learning Sparse Superposed Features with Feedback [0.9838799448847586]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。
スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。
この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文 参考訳(メタデータ) (2025-02-08T01:54:23Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Learning Intrinsic Dimension via Information Bottleneck for Explainable
Aspect-based Sentiment Analysis [30.16902652669842]
Aspect-based Sentiment Analysis (ABSA) のためのInformation Bottleneck-based Gradient (texttIBG) の説明フレームワークを提案する。
我々のフレームワークは,単語の埋め込みを簡潔な内在次元に洗練し,本質的な特徴を維持し,無関係な情報を省略する。
感傷的特徴を識別することで、モデルの性能と解釈可能性の両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-28T08:11:05Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。