論文の概要: The Truth Lies Somewhere in the Middle (of the Generated Tokens)
- arxiv url: http://arxiv.org/abs/2605.09969v1
- Date: Mon, 11 May 2026 04:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.52053
- Title: The Truth Lies Somewhere in the Middle (of the Generated Tokens)
- Title(参考訳): 中世の真相
- Authors: Sophie L. Wang, Phillip Isola, Brian Cheung,
- Abstract要約: 隠れた状態にまたがってプールするということは、個々のトークン単独よりも意味的な表現をもたらすということがわかりました。
我々は、言語、視覚、タンパク質ドメインの参照空間へのカーネルアライメントを通じてこれを定量化する。
- 参考スコア(独自算出の注目度): 28.549408477623206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How should hidden states generated autoregressively be collapsed into a representation that reflects a language model's internal state? Despite tokens being generated under causal masking, we find that mean pooling across their hidden states yields more semantic representations than any individual token alone. We quantify this through kernel alignment to reference spaces in language, vision, and protein domains. The improvement through mean pooling is consistent with information being distributed across generated tokens rather than localized to a single position. Furthermore, representations derived from generated tokens outperform those from prompt tokens, and alignment across generation reveals interpretable dynamics in model behavior.
- Abstract(参考訳): 隠れた状態を自動回帰的に生成して、言語モデルの内部状態を反映した表現に分解するにはどうすればよいのか?
トークンは因果マスキングの下で生成されるが、隠れた状態にプールするということは、個々のトークン単独よりも意味的な表現をもたらす。
我々は、言語、視覚、タンパク質ドメインの参照空間へのカーネルアライメントを通じてこれを定量化する。
平均プーリングによる改善は、単一の位置にローカライズされるのではなく、生成されたトークンに分散される情報と一致している。
さらに、生成されたトークンから派生した表現は、プロンプトトークンよりも優れ、生成間のアライメントは、モデルの振る舞いにおける解釈可能なダイナミクスを明らかにする。
関連論文リスト
- AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation [56.21301367698041]
AnchorSegを導入し、画像トークン上での条件生成の構造化として、推論セグメンテーションを再構成する。
我々は、アンカークエリがローカライズ信号を決定する画像トークン上の因子分布として空間条件をモデル化する。
Token-Mask Cycle Consistency (TMCC)を提案する。
論文 参考訳(メタデータ) (2026-04-20T17:49:22Z) - Training Language Models with homotokens Leads to Delayed Overfitting [2.531076482407163]
サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面形式にデコードされ、意味を保存する言語モデルにおける計算層を導入している。
我々は、データ拡張の厳密な意味保存形式として、ホモトケンを定式化する。
データ制約付き事前トレーニングでは、ホモトケン強化は繰り返しデータ露光下でのオーバーフィッティングを継続的に遅らせる。
多言語微調整では、ホモトケンの有効性はトークン化器の品質に依存する。
論文 参考訳(メタデータ) (2026-01-06T09:57:00Z) - State over Tokens: Characterizing the Role of Reasoning Tokens [37.09286375762863]
大きな言語モデル(LLM)は、最終的な答えの前に推論トークンを生成し、複雑なタスクのパフォーマンスを向上させる。
LLMが行うプロセスを真に理解するためには、研究は推論トークンをテキストとして読むことを超えて、それらをステートとしてデコードすることに注力する必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-12-14T17:30:34Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Follow the Flow: On Information Flow Across Textual Tokens in Text-to-Image Models [35.85433370296494]
テキスト・ツー・イメージ・モデルにおいて,意味情報をトークン表現に分散させる方法について検討する。
情報は通常、アイテムのトークンの1つか2つだけに集中している。
場合によっては、アイテムはお互いの表現に影響を与え、しばしば誤解を招く。
論文 参考訳(メタデータ) (2025-04-01T19:17:44Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。