論文の概要: Neologism Learning as a Parameter-Efficient Alternative to Fine-Tuning for Model Steering
- arxiv url: http://arxiv.org/abs/2512.18551v1
- Date: Sun, 21 Dec 2025 00:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.391512
- Title: Neologism Learning as a Parameter-Efficient Alternative to Fine-Tuning for Model Steering
- Title(参考訳): モデルステアリングのためのファインチューニングのパラメータ効率の良い代替手段としてのネオロジズム学習
- Authors: Sungjoon Park, Varun Ramamurthi, Owen Terry,
- Abstract要約: ネオロジズム(英: Neologism)は、あるモデルの語彙にまだ含まれていない概念を表現するために訓練された新しいトークンである。
低ランク適応(LoRA)微調整に対するネオロジズム学習の性能の比較を行った。
また, ネオロジズムの自己言語化についても検討し, ネオロジズムを問うと, モデルが時折新たな単語を生成できることを示した。
- 参考スコア(独自算出の注目度): 1.4066253648292315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In language modeling, neologisms are new tokens trained to represent a concept not already included in a given model's vocabulary. Neologisms can be used to encourage specific behavior in models, for example by appending prompts with "Give me a neologism answer." Behavioral steering can also be achieved through fine-tuning, albeit with more compute and less flexibility: learning a neologism only trains d parameters and allows the user to still access the model's default behavior. We compare the performance of neologism learning against low-rank adaptation (LoRA) fine-tuning, finding that neologisms outperform fine-tuned models under a matched training setup (same data and hyperparameters). We also investigate self-verbalizations of neologisms, and observe that the model will occasionally make up its own new words when asked about a neologism.
- Abstract(参考訳): 言語モデリングにおいて、ネオロジズム(ネオロジズム、英: neologism)は、あるモデルの語彙にすでに含まれていない概念を表現するために訓練された新しいトークンである。
ネオロジズムは、例えば「ネオロジズムの答えをくれ」というプロンプトを付加することで、モデル内の特定の振る舞いを促進するのに使うことができる。
ネオロジズムを学ぶことは、dパラメータのみを訓練し、ユーザがモデルのデフォルトの動作にアクセスできるようにする。
低ランク適応(LoRA)の微調整に対するネオロジズム学習の性能を比較し,一致したトレーニング設定(データとハイパーパラメータ)の下で,ネオロジズムが微調整モデルより優れていることを発見した。
また, ネオロジズムの自己言語化についても検討し, ネオロジズムを問うと, モデルが時折新たな単語を生成できることを示した。
関連論文リスト
- Neologism Learning for Controllability and Self-Verbalization [23.932433693726182]
モデルをよりよく理解し、制御するために、新しい単語を導入するというアイデアを探求する。
本手法では、新しい単語を埋め込み、その概念を示す例で訓練することにより、新しい単語を導入する。
新しい単語を追加することで、フラットリー、誤った回答、テキストの長さ、AxBenchのより複雑な概念などの概念を制御できることを示す。
論文 参考訳(メタデータ) (2025-10-09T17:41:57Z) - NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms [19.863120275409393]
我々は、いくつかの一般的な収集手法を用いて、近年のイングランドのネオロジズムの多様な資源を創出する。
我々は新語を含む文と新語を置き換えたほぼ同一の文とを既存の代用語と比較することにより,時間的ドリフトを分析する。
モデル性能は1つの新語が文中に導入されるとき、機械翻訳においてほぼ半減する。
論文 参考訳(メタデータ) (2024-02-19T16:19:15Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - ABNIRML: Analyzing the Behavior of Neural IR Models [45.74073795558624]
BERTやT5のような事前訓練された言語モデルは、アドホック検索のための新しい最先端技術を確立した。
ニューラルIRモードL(ABNIRML)の挙動解析のための包括的枠組みを提案する。
我々は、ニューラルネットワークの利得に寄与する要因についての洞察を得るための実証的研究を行う。
論文 参考訳(メタデータ) (2020-11-02T03:07:38Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - What is Learned in Visually Grounded Neural Syntax Acquisition [118.6461386981381]
本稿では,視覚的接地型ニューラルシンタクス学習者のケーススタディについて考察する。
モデルの簡易バージョンを構築することにより、モデルの強い性能をもたらすコアファクタを分離する。
名詞具象性の単純な語彙信号がモデルの予測に主要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2020-05-04T17:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。