論文の概要: Probability Distribution Collapse: A Critical Bottleneck to Compact Unsupervised Neural Grammar Induction
- arxiv url: http://arxiv.org/abs/2509.20734v1
- Date: Thu, 25 Sep 2025 04:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.691993
- Title: Probability Distribution Collapse: A Critical Bottleneck to Compact Unsupervised Neural Grammar Induction
- Title(参考訳): 確率分布の崩壊: 教師なし型ニューラルグラマーインジェクションのための臨界ボツネック
- Authors: Jinwook Park, Kangil Kim,
- Abstract要約: 教師なしニューラル文法誘導は言語データから解釈可能な階層構造を学習することを目的としている。
既存のモデルはボトルネックに直面しており、多くの場合、不要に大きいが、性能の低い文法となる。
我々は、ニューラルネットワークのパラメータ化の鍵となるコンポーネント間で崩壊がいつ、どのように起こるかを分析し、ターゲットとするソリューションを導入する。
- 参考スコア(独自算出の注目度): 13.836565669337057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised neural grammar induction aims to learn interpretable hierarchical structures from language data. However, existing models face an expressiveness bottleneck, often resulting in unnecessarily large yet underperforming grammars. We identify a core issue, $\textit{probability distribution collapse}$, as the underlying cause of this limitation. We analyze when and how the collapse emerges across key components of neural parameterization and introduce a targeted solution, $\textit{collapse-relaxing neural parameterization}$, to mitigate it. Our approach substantially improves parsing performance while enabling the use of significantly more compact grammars across a wide range of languages, as demonstrated through extensive empirical analysis.
- Abstract(参考訳): 教師なしニューラル文法誘導は言語データから解釈可能な階層構造を学習することを目的としている。
しかし、既存のモデルは表現力のボトルネックに直面し、しばしば必要以上に大きく、性能の低い文法となる。
この制限の根本原因は、コア問題である$\textit{probability distribution collapse}$である。
我々は、神経パラメータ化の主要なコンポーネント間で崩壊がいつどのように起こるかを分析し、それを緩和するためにターゲットのソリューションである$\textit{collapse-relaxing Neural parameterization}$を導入する。
提案手法は,広範な経験的分析を通じて示されるように,幅広い言語にわたって,よりコンパクトな文法の使用を可能にするとともに,解析性能を大幅に向上させる。
関連論文リスト
- Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Structural Optimization Ambiguity and Simplicity Bias in Unsupervised Neural Grammar Induction [2.3020018305241337]
我々の研究は、よりコンパクトで正確で一貫した明示的な文法の学習を促進し、より良い解釈可能性を促進する。
教師なし解析ベンチマークテストでは,過度に単純化された解析に対するバイアスを低減しつつ,性能を著しく改善する。
論文 参考訳(メタデータ) (2024-07-23T04:57:03Z) - Structural generalization in COGS: Supertagging is (almost) all you need [12.991247861348048]
最近のセマンティック解析データセットは、合成一般化が必要な場合において、ニューラルネットワークの重要な制限を提示している。
この問題を軽減するために、ニューラルネットワークベースのセマンティックパーシングフレームワークをいくつかの方法で拡張します。
論文 参考訳(メタデータ) (2023-10-21T21:51:25Z) - On the Expressiveness and Generalization of Hypergraph Neural Networks [77.65788763444877]
この拡張抽象化はハイパーグラフニューラルネットワーク(HyperGNN)の表現性、学習、および(構造的)一般化を分析するためのフレームワークを記述する。
具体的には、HyperGNNが有限データセットからどのように学習し、任意の入力サイズのグラフ推論問題に構造的に一般化するかに焦点を当てる。
論文 参考訳(メタデータ) (2023-03-09T18:42:18Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Less is More: A Lightweight and Robust Neural Architecture for Discourse
Parsing [27.28989421841165]
本稿では,複数の複雑な特徴抽出器を除去し,学習可能な自己認識モジュールのみを利用する軽量ニューラルネットワークを提案する。
3つの共通談話解析タスクの実験は、最近の事前訓練された言語モデルにより、軽量アーキテクチャはより優れた一般化性と堅牢性が得られることを示している。
論文 参考訳(メタデータ) (2022-10-18T02:07:09Z) - Improving Topic Segmentation by Injecting Discourse Dependencies [29.353285741379334]
本論文では, 談話依存構造を注入した談話認識型ニューラルトピックセグメンテーションモデルを提案する。
英語評価データセットに関する実証研究により,ニューラルネットワークのトピックセグメンタに上述の談話構造を注入することで,その性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-09-18T18:22:25Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Demystifying Neural Language Models' Insensitivity to Word-Order [7.72780997900827]
摂動の定量化により,自然言語モデルの単語順に対する不感度について検討する。
ニューラルネットワークモデルは、トークンのグローバルな順序付けよりも、局所的な順序付けを必要とする。
論文 参考訳(メタデータ) (2021-07-29T13:34:20Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。