論文の概要: Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect
- arxiv url: http://arxiv.org/abs/2509.12065v1
- Date: Mon, 15 Sep 2025 15:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.379212
- Title: Steering Language Models in Multi-Token Generation: A Case Study on Tense and Aspect
- Title(参考訳): マルチトークン生成におけるステアリング言語モデル:テンスとアスペクトのケーススタディ
- Authors: Alina Klerings, Jannik Brinkmann, Daniel Ruffinelli, Simone Ponzetto,
- Abstract要約: 本研究では2つの多次元階層文法現象(動詞の時制とアスペクト)の表現と制御について検討する。
両文法的特徴の因果的制御は,3世代にわたる概念的ステアリングを通じて行う。
トピックシフトのような望ましくない副作用を減らすためには, ステアリング強度, 位置, 持続時間が重要なパラメータであることがわかった。
- 参考スコア(独自算出の注目度): 3.360832612971853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are able to generate grammatically well-formed text, but how do they encode their syntactic knowledge internally? While prior work has focused largely on binary grammatical contrasts, in this work, we study the representation and control of two multidimensional hierarchical grammar phenomena - verb tense and aspect - and for each, identify distinct, orthogonal directions in residual space using linear discriminant analysis. Next, we demonstrate causal control over both grammatical features through concept steering across three generation tasks. Then, we use these identified features in a case study to investigate factors influencing effective steering in multi-token generation. We find that steering strength, location, and duration are crucial parameters for reducing undesirable side effects such as topic shift and degeneration. Our findings suggest that models encode tense and aspect in structurally organized, human-like ways, but effective control of such features during generation is sensitive to multiple factors and requires manual tuning or automated optimization.
- Abstract(参考訳): 大規模言語モデル (LLM) は文法的に well-formed text を生成することができるが、どのようにそれらの構文的知識を内部的にエンコードするか?
先行研究は主に二項文法のコントラストに焦点を当ててきたが、本研究では2つの多次元階層文法現象(動詞の時制とアスペクト)の表現と制御について検討し、それぞれが線形判別分析を用いて残留空間の直交方向を識別する。
次に、3世代にわたる概念ステアリングを通じて、両方の文法的特徴に対する因果制御を示す。
そして,これらの特徴をケーススタディに用いて,マルチトークン世代における効果的なステアリングに影響を与える要因について検討する。
トピックシフトやデジェネレーションといった望ましくない副作用を減らすためには, 操舵強度, 位置, 持続時間が重要なパラメータであることがわかった。
本研究は, モデルが構造的, 人的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的、 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的, 構造的,
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。