論文の概要: Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions
- arxiv url: http://arxiv.org/abs/2605.07984v1
- Date: Fri, 08 May 2026 16:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.210991
- Title: Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions
- Title(参考訳): 計画はどこにあるのか?軽量機械的介入を伴う言語モデルにおける潜在計画
- Authors: Nicole Ma, Nick Rui,
- Abstract要約: 前方通過時に構造的に制約された未来のトークンの内部表現が形成される言語モデルにおける計画的サイト形成について検討する。
Qwen3, Gemma-3, Llama-3の2つの軽量な手法(線形探索とアクティベーションパッチ)を10以上のスケールで適用する。
我々はGemma-3-27Bハンドオフを2段階の経路パッチで5つの注意点にローカライズする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study planning site formation in language models -- where internal representations of structurally-constrained future tokens form during the forward pass, and whether they causally drive generation. Using rhyming-couplet completion as a clean test of forward-looking constraint, we apply two lightweight methods (linear probing and activation patching) across Qwen3, Gemma-3, and Llama-3 at more than ten scales. Probing shows that future-rhyme information is linearly decodable at the line boundary, with signal that strengthens with scale in all three families. Activation patching reveals that only Gemma-3-27B causally relies on this encoding, exhibiting a handoff in which the causal driver migrates from the rhyme word to the line boundary around layer 30. Every other model we test conditions on the rhyme word throughout generation, with near-zero causal effect at the line boundary despite strong probe signal. We localize the Gemma-3-27B handoff to five attention heads through two-stage path patching that recover ~90% of the rhyme-routing capacity at the newline.
- Abstract(参考訳): 言語モデルにおける計画的サイト形成について検討し、構造的に制約された未来のトークンの内部表現が前方通過中に形成され、それらが生成を因果的に駆動するかどうかを考察する。
前方制約のクリーンなテストとしてRhyming-Couplet補完を用いて,Qwen3,Gemma-3,Llama-3の2つの軽量な手法(線形探索とアクティベーションパッチ)を10以上のスケールで適用する。
探索によって、将来の韻律情報は線境界で線形に復調可能であることが示され、その信号は3つのファミリー全てで拡張される。
アクティベーションパッチは、Gemma-3-27Bのみがこのエンコーディングを慎重に頼り、因果ドライバが韻語から第30層周辺の線境界へ移行するハンドオフを示す。
他のモデルは全て、強いプローブ信号にもかかわらず、ライン境界におけるほぼゼロの因果効果を持つリズム単語の条件を世代を通してテストする。
我々はGemma-3-27Bハンドオフを2段階の経路パッチで5つの注意点にローカライズする。
関連論文リスト
- Are you going to finish that? A Practical Study of the Partial Token Problem [85.49816027251013]
言語モデル(LM)はトークンのシーケンスによって訓練されるが、ユーザはテキストを介してLMと対話する。
このミスマッチは、ユーザーが期待する次のトークンの途中でプロンプトを終了したときに発生する部分トークン問題を引き起こす。
この研究では、トークンと"ワード"境界がしばしば並んでいない3つのドメインを特定します。
論文 参考訳(メタデータ) (2026-01-30T17:47:16Z) - What's the plan? Metrics for implicit planning in LLMs and their application to rhyme generation and question answering [9.937250908677399]
暗黙的な計画は、以前考えられていたよりも小さなモデルに存在する普遍的なメカニズムであることを示す。
本手法は,言語モデルの暗黙的な計画能力の研究に広く応用できる方法である。
論文 参考訳(メタデータ) (2026-01-28T01:47:10Z) - MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - LLMs Got Rhythm? Hybrid Phonological Filtering for Greek Poetry Rhyme Detection and Generation [0.14219395549516345]
LLM(Large Language Models)は、韻律検出や生成のような音韻論的に基底的な現象に対処する。
本稿では,LLMと決定論的音韻論的アルゴリズムを組み合わせて,正確な韻律識別・分析・生成を実現するハイブリッドシステムを提案する。
提案手法では,Pure, Rich, Imperfect, Mosaic, Identical Pre-Rhymeel (IDV) パターンを含む,ギリシャの韻律型を包括的に分類する。
論文 参考訳(メタデータ) (2026-01-14T17:05:17Z) - In Machina N400: Pinpointing Where a Causal Language Model Detects Semantic Violations [0.11458853556386796]
コーパスを用いて因果語モデル (phi-2) の評価を行った。
そこで, 線形プローブを用いた層間検出を行った。
論文 参考訳(メタデータ) (2025-11-24T15:43:56Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Gemma 3 Technical Report [198.3299202423321]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。
このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。
また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文 参考訳(メタデータ) (2025-03-25T15:52:34Z) - Training LLMs to Recognize Hedges in Spontaneous Narratives [4.832760917132772]
ヘッジは、話者が、非原型性または「ファジィ」をシグナルとして、発話を暫定的にマークすることを可能にする
ここでは,21人の話者が記憶から自然に生成した63のロードランナーの物語を実験的にパラメータ化したコーパスのヘッジに着目した。
論文 参考訳(メタデータ) (2024-08-06T17:51:42Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。