論文の概要: Improving Data and Parameter Efficiency of Neural Language Models Using Representation Analysis
- arxiv url: http://arxiv.org/abs/2507.12004v1
- Date: Wed, 16 Jul 2025 07:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.290217
- Title: Improving Data and Parameter Efficiency of Neural Language Models Using Representation Analysis
- Title(参考訳): 表現分析を用いたニューラルネットワークモデルのデータとパラメータ効率の改善
- Authors: Josip Jukić,
- Abstract要約: この論文は、ニューラルネットワークモデルにおけるデータとパラメータ効率に関する課題に対処する。
第1部では、ニューラルネットワーク内の言語表現の特性と力学を考察し、堅牢性と一般化の強化におけるそれらの重要性を強調している。
第2部では、アクティブ学習戦略とパラメータ効率の微調整を統合することにより、データとパラメータ効率を大幅に向上させる手法に焦点を当てている。
第3部では、文脈内学習によって強化された弱い監視手法を探求し、ラベルなしデータを効果的に活用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis addresses challenges related to data and parameter efficiency in neural language models, with a focus on representation analysis and the introduction of new optimization techniques. The first part examines the properties and dynamics of language representations within neural models, emphasizing their significance in enhancing robustness and generalization. It proposes innovative approaches based on representation smoothness, including regularization strategies that utilize Jacobian and Hessian matrices to stabilize training and mitigate sensitivity to input perturbations. The second part focuses on methods to significantly enhance data and parameter efficiency by integrating active learning strategies with parameter-efficient fine-tuning, guided by insights from representation smoothness analysis. It presents smoothness-informed early-stopping techniques designed to eliminate the need for labeled validation sets and proposes innovative combinations of active learning and parameter-efficient fine-tuning to reduce labeling efforts and computational resources. Extensive experimental evaluations across various NLP tasks demonstrate that these combined approaches substantially outperform traditional methods in terms of performance, stability, and efficiency. The third part explores weak supervision techniques enhanced by in-context learning to effectively utilize unlabeled data, further reducing dependence on extensive labeling. It shows that using in-context learning as a mechanism for weak supervision enables models to better generalize from limited labeled data by leveraging unlabeled examples more effectively during training. Comprehensive empirical evaluations confirm significant gains in model accuracy, adaptability, and robustness, especially in low-resource settings and dynamic data environments.
- Abstract(参考訳): この論文は、表現分析と新しい最適化手法の導入に焦点を当て、ニューラルネットワークモデルにおけるデータとパラメータ効率に関する課題に対処する。
第1部では、ニューラルネットワーク内の言語表現の特性と力学を考察し、堅牢性と一般化の強化におけるそれらの重要性を強調している。
ジャコビアン行列とヘッセン行列を用いてトレーニングを安定化し、入力摂動に対する感度を緩和する正規化戦略を含む、表現の滑らかさに基づく革新的なアプローチを提案する。
第2部では,表現の滑らかさの分析から得られた洞察に導かれて,アクティブな学習戦略とパラメータ効率の微調整を統合することで,データとパラメータ効率を著しく向上する手法に焦点を当てている。
ラベル付き検証セットを不要にするために設計されたスムーズなインフォームドアーリーストッピング技術を提案し、ラベル付け作業や計算資源を減らすために、アクティブラーニングとパラメータ効率の高い微調整の革新的な組み合わせを提案する。
様々なNLPタスクに対する大規模な実験的評価は、これらの組み合わせによるアプローチが、性能、安定性、効率の点で従来の手法を大幅に上回っていることを示している。
第3部では、文脈内学習によって強化された弱い監視手法を探求し、ラベルなしデータを効果的に活用し、さらに広範囲なラベル付けへの依存を減らす。
弱い監視のためのメカニズムとしてコンテキスト内学習を使用することで、トレーニング中にラベルなしの例をより効果的に活用することにより、限られたラベル付きデータからモデルをより一般化できることが示される。
総合的な経験的評価は、モデル精度、適応性、ロバスト性、特に低リソース環境や動的データ環境において顕著に向上することを示す。
関連論文リスト
- Comparing Methods for Bias Mitigation in Graph Neural Networks [5.256237513030105]
本稿では,生成人工知能(GenAI)のためのデータ準備において,グラフニューラルネットワーク(GNN)が果たす重要な役割について考察する。
本稿では,データスペーシフィケーション,特徴修正,合成データ拡張という,3つの異なるバイアス緩和手法の比較分析を行った。
論文 参考訳(メタデータ) (2025-03-28T16:18:48Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Architectural Fusion Through Contextual Partitioning in Large Language Models: A Novel Approach to Parameterized Knowledge Integration [0.0]
本稿では,パラメータの動的セグメンテーションをコンテキスト対応領域に分割することで,大規模計算モデルのアーキテクチャ設計を強化するための革新的なアプローチを提案する。
実験による評価は、様々な言語課題における精度、難易度、文脈的コヒーレンスを大幅に改善したことを示す。
これらの知見は、多様かつ複雑な領域における計算言語アーキテクチャのスケーラビリティと適応性を再定義するコンテキスト分割の可能性を示すものである。
論文 参考訳(メタデータ) (2025-01-22T14:21:04Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models [0.18416014644193068]
CRILMは、事前訓練された言語モデルを使用して、不足する値に対してコンテキストに関連のある記述子を作成する。
本評価は,MCAR,MAR,MNARシナリオにおけるCRILMの優れた性能とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Order Matters in the Presence of Dataset Imbalance for Multilingual
Learning [53.74649778447903]
本稿では,高リソースタスクの事前学習をシンプルかつ効果的に行う方法と,高リソースタスクと低リソースタスクの混合による微調整について述べる。
ニューラルネットワーク翻訳(NMT)と多言語言語モデリングの改善について述べる。
論文 参考訳(メタデータ) (2023-12-11T05:46:57Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。
我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文 参考訳(メタデータ) (2021-11-24T15:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。