Fugu-MT 論文翻訳(概要): The more polypersonal the better -- a short look on space geometry of fine-tuned layers

論文の概要: The more polypersonal the better -- a short look on space geometry of fine-tuned layers

arxiv url: http://arxiv.org/abs/2501.05503v1
Date: Thu, 09 Jan 2025 18:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.051348
Title: The more polypersonal the better -- a short look on space geometry of fine-tuned layers
Title（参考訳）: より多対人的になるほど -- 微調整層における空間幾何学の簡潔な考察
Authors: Sergei Kudriashov, Veronika Zykova, Angelina Stepanova, Yakov Raskind, Eduard Klyshinsky,
Abstract要約: 我々は、追加の文法モジュールで訓練されたBERTモデルの内部表現の変化を分析する。単一の文法層を追加することで、モデルが新しい文法層と古い文法層をその内部で分離することを発見した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The interpretation of deep learning models is a rapidly growing field, with particular interest in language models. There are various approaches to this task, including training simpler models to replicate neural network predictions and analyzing the latent space of the model. The latter method allows us to not only identify patterns in the model's decision-making process, but also understand the features of its internal structure. In this paper, we analyze the changes in the internal representation of the BERT model when it is trained with additional grammatical modules and data containing new grammatical structures (polypersonality). We find that adding a single grammatical layer causes the model to separate the new and old grammatical systems within itself, improving the overall performance on perplexity metrics.
Abstract（参考訳）: ディープラーニングモデルの解釈は急速に成長する分野であり、特に言語モデルに関心がある。このタスクには、ニューラルネットワークの予測を再現するシンプルなモデルをトレーニングすることや、モデルの潜在空間を分析することなど、さまざまなアプローチがある。後者の方法は、モデルの意思決定プロセスにおけるパターンを識別するだけでなく、内部構造の特徴を理解することを可能にする。本稿では,BERTモデルの内部表現の変化を,新たな文法的構造(多対人性)を含む追加の文法的加群とデータで訓練した場合に解析する。単一の文法層を追加することで、モデルが新しい文法系と古い文法系をその内部で分離し、難易度メトリクスの全体的なパフォーマンスを向上させることが分かる。

関連論文リスト

Explicit Grammar Semantic Feature Fusion for Robust Text Classification [0.0]
自然言語処理により、コンピュータはテキストを効率的に分析し分類することで人間の言語を理解することができる。既存のモデルは、計算集約的で資源制約のある環境に適さないトランスフォーマーモデルで大きなコーパスから学習することで特徴を捉えている。本研究は,意味情報とともに包括的文法規則を取り入れて,頑健で軽量な分類モデルを構築することを目的とする。
論文参考訳（メタデータ） (2026-02-24T10:25:29Z)
KL-based self-distillation for large language models [0.0]
我々はKLの発散による知識蒸留の数学的基礎化手法を提案する。これにより、生徒モデルは、異なる語彙にもかかわらず、教師から分布的知識を継承することができる。我々は,KLを用いた蒸留法と従来のクロスエントロピートレーニングを比較し,新しいトークン埋め込みを初期化する手法の評価を行った。
論文参考訳（メタデータ） (2025-08-14T15:45:50Z)
A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文参考訳（メタデータ） (2025-07-25T13:14:03Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Hidden Holes: topological aspects of language models [1.1172147007388977]
我々は,GPTに基づく大規模言語モデルにおけるトポロジ的構造の発達について,訓練中の深度と時間にわたって検討した。後者は、すべての自然言語に共通する変化パターンを持つが、合成されたデータがない、よりトポロジ的な複雑さを示すことを示す。
論文参考訳（メタデータ） (2024-06-09T14:25:09Z)
Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文参考訳（メタデータ） (2023-06-21T11:48:07Z)
Understanding Domain Learning in Language Models Through Subpopulation Analysis [35.16003054930906]
現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
論文参考訳（メタデータ） (2022-10-22T21:12:57Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文参考訳（メタデータ） (2022-06-19T08:55:07Z)
TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。 5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文参考訳（メタデータ） (2022-05-25T08:57:46Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文参考訳（メタデータ） (2020-07-13T17:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。