論文の概要: How Do Language Models Acquire Character-Level Information?
- arxiv url: http://arxiv.org/abs/2602.05347v1
- Date: Thu, 05 Feb 2026 06:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.782752
- Title: How Do Language Models Acquire Character-Level Information?
- Title(参考訳): 言語モデルは文字レベル情報を取得するか?
- Authors: Soma Sato, Ryohei Sasano,
- Abstract要約: 制御条件下で訓練されたLMと、標準条件下で訓練されたLMとを比較して、モデルがどのように文字レベルの知識を取得するかを分析する。
分析の結果, トークン化に起因して, マージ規則と正書法制約が一次要因となることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.183615639007941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have been reported to implicitly encode character-level information, despite not being explicitly provided during training. However, the mechanisms underlying this phenomenon remain largely unexplored. To reveal the mechanisms, we analyze how models acquire character-level knowledge by comparing LMs trained under controlled settings, such as specifying the pre-training dataset or tokenizer, with those trained under standard settings. We categorize the contributing factors into those independent of tokenization. Our analysis reveals that merge rules and orthographic constraints constitute primary factors arising from tokenization, whereas semantic associations of substrings and syntactic information function as key factors independent of tokenization.
- Abstract(参考訳): 言語モデル(LM)は、トレーニング中に明示的に提供されていないにもかかわらず、暗黙的に文字レベルの情報をエンコードするように報告されている。
しかし、この現象のメカニズムはほとんど解明されていない。
このメカニズムを明らかにするために,事前学習データセットやトークン化ツールなどの制御された設定下で訓練されたLMと,標準設定下で訓練されたLMとを比較して,モデルが文字レベルの知識を取得する方法を分析する。
コントリビューション要因をトークン化に依存しない要因に分類する。
分析の結果,メルジ規則と正書法制約がトークン化に起因する主要な要因となっているのに対し,サブストリングや構文情報のセマンティックな関連はトークン化とは無関係に重要な要素として機能することがわかった。
関連論文リスト
- Benchmarking Prosody Encoding in Discrete Speech Tokens [13.60092490447892]
本研究は, 韻律に対する感性に基づく韻律符号化に着目し, 離散トークンを設計するための実践的ガイドラインを提供することを目的とする。
特に、言語モデルでは、意味的内容だけでなく、韻律的特徴も反映する応答を理解し、生成することが期待されている。
論文 参考訳(メタデータ) (2025-08-15T05:11:16Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モジュールの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化は、合理的な人間的な言語のパフォーマンスに必要である、と我々は主張する。
本稿では,建築的選択,すなわち構成,思考のための言語の優越性について論じる。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。