論文の概要: StructLens: A Structural Lens for Language Models via Maximum Spanning Trees
- arxiv url: http://arxiv.org/abs/2603.03328v1
- Date: Tue, 10 Feb 2026 11:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.156635
- Title: StructLens: A Structural Lens for Language Models via Maximum Spanning Trees
- Title(参考訳): StructLens:最大スパンニング木を用いた言語モデルの構造レンズ
- Authors: Haruki Sakajo, Frederikus Hudi, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: StructLensは、内部構造が全体構造とどのように関係しているかを明らかにするために設計された分析フレームワークである。
以上の結果から,StructLensは従来のコサイン類似性とは大きく異なる層間類似性パターンを呈することが明らかとなった。
- 参考スコア(独自算出の注目度): 52.040177523973334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language exhibits inherent structures, a property that explains both language acquisition and language change. Given this characteristic, we expect language models to manifest internal structures as well. While interpretability research has investigated the components of language models, existing approaches focus on local inter-token relationships within layers or modules (e.g., Multi-Head Attention), leaving global inter-layer relationships largely overlooked. To address this gap, we introduce StructLens, an analytical framework designed to reveal how internal structures relate holistically through their inter-token connection within a layer. StructLens constructs maximum spanning trees based on the semantic representations in residual streams, analogous to dependency parsing, and leverages the tree properties to quantify inter-layer distance (or similarity) from a structural perspective. Our findings demonstrate that StructLens yields an inter-layer similarity pattern that is distinctively different from conventional cosine similarity. Moreover, this structure-aware similarity proves to be beneficial for practical tasks, such as layer pruning, highlighting the effectiveness of structural analysis for understanding and optimizing language models. Our code is available at https://github.com/naist-nlp/structlens.
- Abstract(参考訳): 言語は固有の構造を持ち、言語習得と言語変化の両方を説明する。
この特徴から、言語モデルも内部構造を示すことを期待する。
解釈可能性の研究は言語モデルのコンポーネントを調査してきたが、既存のアプローチはレイヤやモジュール内の局所的な相互関係(マルチヘッド注意など)に焦点を当てており、グローバルな相互関係は概ね見過ごされている。
このギャップに対処するために、SructLensという分析フレームワークを紹介します。
StructLensは、残留ストリームのセマンティック表現に基づいて最大スパンニングツリーを構築し、依存性解析に類似したツリー特性を活用して、構造的な観点から層間距離(または類似性)を定量化する。
以上の結果から,StructLensは従来のコサイン類似性とは大きく異なる層間類似性パターンを呈することが明らかとなった。
さらに, この構造認識の類似性は, 構造解析の有効性を強調し, 言語モデルの理解と最適化に有効であることを示す。
私たちのコードはhttps://github.com/naist-nlp/structlens.comで利用可能です。
関連論文リスト
- From Atoms to Trees: Building a Structured Feature Forest with Hierarchical Sparse Autoencoders [12.294297654425334]
階層的スパースオートエンコーダ(HSAE)は、一連のSAEとそれらの特徴間の親子関係を学習する。
我々の研究は、言語表現に埋め込まれたマルチスケールの概念構造を発見し解析するための、強力でスケーラブルなツールを提供する。
論文 参考訳(メタデータ) (2026-02-12T12:30:23Z) - From Static Structures to Ensembles: Studying and Harnessing Protein Structure Tokenization [15.864659611818661]
タンパク質構造トークン化は、3D構造を離散的あるいはベクトル化された表現に変換する。
構造トークン化に関する最近の多くの研究にもかかわらず、基礎となる離散表現の性質はよく理解されていない。
構造予測のための言語モデルにおける構造トークンの有効利用は、リッチで訓練済みのシーケンス埋め込みを使うことに依存していることを示す。
論文 参考訳(メタデータ) (2025-11-13T07:58:24Z) - Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages [0.0]
我々は、構文構造をデレクシカルな依存(サブ)ツリーとして定義し、音声および記述されたユニバーサル依存ツリーバンクからそれらを抽出する。
各コーパスについて, 構文的在庫の大きさ, 多様性, 分布, その重なり合い, 音声の最も特徴的な構造を解析した。
その結果、どちらの言語でも、音声コーパスは、記述されたコーパスよりも、より多様で多様な構文構造を含まないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-28T18:43:26Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure [11.184330703168893]
本稿では,中国語における単語の内部構造をモデル化する。
制約付きアイズナーアルゴリズムは、文字レベルの木の互換性を確保するために実装されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2024-06-06T06:23:02Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。