論文の概要: Perturbation: A simple and efficient adversarial tracer for representation learning in language models
- arxiv url: http://arxiv.org/abs/2603.23821v1
- Date: Wed, 25 Mar 2026 01:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.076212
- Title: Perturbation: A simple and efficient adversarial tracer for representation learning in language models
- Title(参考訳): 摂動:言語モデルにおける表現学習のためのシンプルで効率的な対向的トレーサ
- Authors: Joshua Rozner, Cory Shain,
- Abstract要約: 摂動は複数の言語粒径で構造的移動を示すことを示す。
訓練されたLMでは、摂動は複数の言語粒径で構造的移動を示す。
- 参考スコア(独自算出の注目度): 2.0769172070951063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic representation learning in deep neural language models (LMs) has been studied for decades, for both practical and theoretical reasons. However, finding representations in LMs remains an unsolved problem, in part due to a dilemma between enforcing implausible constraints on representations (e.g., linearity; Arora et al. 2024) and trivializing the notion of representation altogether (Sutter et al., 2025). Here we escape this dilemma by reconceptualizing representations not as patterns of activation but as conduits for learning. Our approach is simple: we perturb an LM by fine-tuning it on a single adversarial example and measure how this perturbation ``infects'' other examples. Perturbation makes no geometric assumptions, and unlike other methods, it does not find representations where it should not (e.g., in untrained LMs). But in trained LMs, perturbation reveals structured transfer at multiple linguistic grain sizes, suggesting that LMs both generalize along representational lines and acquire linguistic abstractions from experience alone.
- Abstract(参考訳): 深層ニューラルネットワークモデル(LM)における言語表現学習は、実用的および理論的理由から、数十年にわたって研究されてきた。
しかし、LMにおける表現の発見は未解決の問題であり、部分的には表現(例えば、線型性; Arora et al 2024)に対する不確定な制約を強制することと、表現の概念を完全に自明にすること(Sutter et al , 2025)の間のジレンマがある。
ここでは、表現を活性化のパターンではなく、学習のコンディットとして再認識することで、このジレンマから逃れる。
我々のアプローチは単純で、一つの逆の例に微調整することでLMを摂動し、この摂動 ` `infects'' の他の例を測る。
摂動は幾何学的な仮定をしないが、他の方法とは異なり、それがすべきでない(例えば、訓練されていない LM において)表現が見つからない。
しかし、訓練された LM では、摂動は複数の言語的粒度で構造的移動を示すため、LM は表現線に沿って一般化し、経験のみから言語的抽象化を取得することを示唆している。
関連論文リスト
- Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - Analogical Reasoning Inside Large Language Models: Concept Vectors and the Limits of Abstraction [0.0]
関数ベクトル(FV)は単純な入力変化に不変ではないことを示し、純粋概念以上を捉えることを示唆する。
我々は「匿名」のような動詞の概念に対して不変概念ベクトル(CV)を符号化する小さな注意ヘッドの集合をローカライズする。
CVは最終的な出力とは独立して動作する特徴検出器として機能する。
論文 参考訳(メタデータ) (2025-03-05T16:59:08Z) - Strong hallucinations from negation and how to fix them [2.1178416840822027]
提案手法は,疎い負のデータに対する訓練を必要とせずに,クローゼプロンプトや否定を伴う自然言語推論タスクにおけるモデル性能を向上させることを示す。
このような応答をテキストストロング幻覚と呼び、論理演算子の内部表現とそれらの表現からの出力に対するLMの計算からそれに従うことを証明する。
論文 参考訳(メタデータ) (2024-02-16T10:11:20Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - MAML and ANIL Provably Learn Representations [60.17417686153103]
我々は,MAMLとANILという2つの有名なメタ学習手法が,与えられたタスク群間の共通表現を学習可能であることを証明した。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に高速な速度で接地トラス表現を復元することができる。
解析の結果,MAMLとANILがベースとなる表現を回復させる駆動力は,モデルの最終層に適応していることが判明した。
論文 参考訳(メタデータ) (2022-02-07T19:43:02Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Discourse structure interacts with reference but not syntax in neural
language models [17.995905582226463]
本研究では,異なる言語表現間の相互作用を学習する言語モデル(LM)の能力について検討する。
人間とは対照的に、暗黙の因果関係は文法ではなく、参照行動にのみ影響を及ぼす。
以上の結果から,LMの行動は,学習した言論表現だけでなく,統語的合意にも矛盾する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-10T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。