論文の概要: Less is More: Local Intrinsic Dimensions of Contextual Language Models
- arxiv url: http://arxiv.org/abs/2506.01034v1
- Date: Sun, 01 Jun 2025 14:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.90308
- Title: Less is More: Local Intrinsic Dimensions of Contextual Language Models
- Title(参考訳): より少ない: 文脈言語モデルの局所内在次元
- Authors: Benjamin Matthias Ruppik, Julius von Rohrscheidt, Carel van Niekerk, Michael Heck, Renato Vukovic, Shutong Feng, Hsien-chin Lin, Nurul Lubis, Bastian Rieck, Marcus Zibrowius, Milica Gašić,
- Abstract要約: 本研究では,テクスチュアな埋め込みの幾何学的特性に基づく新しい視点を導入し,トレーニングと微調整の効果について検討する。
局所的な次元はモデルのトレーニング力学と一般化能力に関する洞察を与える。
実験では, 平均局所次元の減少が伴う傾向にあり, その後のパフォーマンス向上が予測される傾向がある。
- 参考スコア(独自算出の注目度): 13.561226514150695
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding the internal mechanisms of large language models (LLMs) remains a challenging and complex endeavor. Even fundamental questions, such as how fine-tuning affects model behavior, often require extensive empirical evaluation. In this paper, we introduce a novel perspective based on the geometric properties of contextual latent embeddings to study the effects of training and fine-tuning. To that end, we measure the local dimensions of a contextual language model's latent space and analyze their shifts during training and fine-tuning. We show that the local dimensions provide insights into the model's training dynamics and generalization ability. Specifically, the mean of the local dimensions predicts when the model's training capabilities are exhausted, as exemplified in a dialogue state tracking task, overfitting, as demonstrated in an emotion recognition task, and grokking, as illustrated with an arithmetic task. Furthermore, our experiments suggest a practical heuristic: reductions in the mean local dimension tend to accompany and predict subsequent performance gains. Through this exploration, we aim to provide practitioners with a deeper understanding of the implications of fine-tuning on embedding spaces, facilitating informed decisions when configuring models for specific applications. The results of this work contribute to the ongoing discourse on the interpretability, adaptability, and generalizability of LLMs by bridging the gap between intrinsic model mechanisms and geometric properties in the respective embeddings.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部メカニズムを理解することは、依然として困難で複雑な試みである。
微調整がモデル行動にどのように影響するかといった基本的な問題でさえ、しばしば広範な経験的評価を必要とする。
本稿では,テクスチャ型潜伏埋め込みの幾何学的特性に基づく新しい視点を導入し,トレーニングと微調整の効果について検討する。
そこで我々は,文脈言語モデルの潜在空間の局所的次元を測定し,学習や微調整の際の変化を分析する。
局所的な次元はモデルのトレーニング力学と一般化能力に関する洞察を与える。
具体的には、感情認識タスクで示されるような対話状態追跡タスク、過剰適合タスク、算術タスクで示されるようなグルーキングなど、モデルのトレーニング能力が枯渇した時に局所的な次元の平均が予測される。
さらに,本実験は,平均局所次元の減少が伴う傾向にあり,その後の性能向上を予測するという,実用的ヒューリスティックを示唆する。
本研究は,埋め込み空間における微調整の影響を深く理解し,特定のアプリケーションのためのモデルを構成する際の情報決定を容易にすることを目的としている。
本研究の結果は, 各埋め込みにおける内在モデル機構と幾何学的特性のギャップを埋めることにより, LLMの解釈可能性, 適応性, 一般化性に関する継続的な議論に寄与する。
関連論文リスト
- Towards Locally Explaining Prediction Behavior via Gradual Interventions and Measuring Property Gradients [9.961090778082285]
ディープラーニングモデルは高い予測性能を達成するが、固有の解釈性は欠如している。
本稿では、画像間編集モデルの最近の進歩を活用して、局所的介入説明のための新しい枠組みを提案する。
提案手法は,モデルの予測に対する対応する影響を定量化するために,意味的特性の段階的介入を行う。
論文 参考訳(メタデータ) (2025-03-07T13:50:37Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Understanding the Inner Workings of Language Models Through
Representation Dissimilarity [5.987278280211877]
表現差分測度は、2つのモデルの内部表現が異なる範囲を測定する関数である。
この結果から,言語モデルの内部動作に光を当てる手段としては,異種度対策が有望なツールセットであることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T14:46:20Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。