Fugu-MT 論文翻訳(概要): Multi-Scale Probabilistic Generation Theory: A Unified Information-Theoretic Framework for Hierarchical Structure in Large Language Models

論文の概要: Multi-Scale Probabilistic Generation Theory: A Unified Information-Theoretic Framework for Hierarchical Structure in Large Language Models

arxiv url: http://arxiv.org/abs/2505.18244v2
Date: Wed, 15 Oct 2025 04:15:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 15:32:13.599631
Title: Multi-Scale Probabilistic Generation Theory: A Unified Information-Theoretic Framework for Hierarchical Structure in Large Language Models
Title（参考訳）: マルチスケール確率的生成理論:大規模言語モデルにおける階層構造のための統一情報理論フレームワーク
Authors: Yukin Zhang, Qi Dong,
Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示すが、力学レベルでは理解されていない。本稿では,マルチスケール確率生成理論(MSPGT)を紹介する。 MSPGTは、標準言語モデリングの目的が暗黙的にマルチスケール情報圧縮を最適化することを示唆している。
参考スコア（独自算出の注目度）: 1.0117553823134735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) exhibit remarkable emergent abilities but remain poorly understood at a mechanistic level. This paper introduces the Multi-Scale Probabilistic Generation Theory (MSPGT), a theoretical framework that models LLMs as Hierarchical Variational Information Bottleneck (H-VIB) systems. MSPGT posits that standard language modeling objectives implicitly optimize multi-scale information compression, leading to the spontaneous formation of three internal processing scales-Global, Intermediate, and Local. We formalize this principle, derive falsifiable predictions about boundary positions and architectural dependencies, and validate them through cross-model experiments combining multi-signal fusion and causal interventions. Results across Llama and Qwen families reveal consistent multi-scale organization but strong architecture-specific variations, partially supporting and refining the theory. MSPGT thus advances interpretability from descriptive observation toward predictive, information-theoretic understanding of how hierarchical structure emerges within large neural language models.
Abstract（参考訳）: 大規模言語モデル(LLM)は目覚ましい能力を示すが、力学レベルでは理解されていない。本稿では,LLMを階層的変動情報ボトルネック(H-VIB)システムとしてモデル化する理論フレームワークであるMSPGT(Multi-Scale Probabilistic Generation Theory)を紹介する。 MSPGTは、標準言語モデリングの目的が暗黙的に多スケール情報圧縮を最適化し、3つの内部処理スケール(Global、Intermediate、Local)が自発的に形成されることを示唆している。我々は、この原理を定式化し、境界位置とアーキテクチャ依存性に関する偽りの予測を導き、多信号融合と因果介入を組み合わせたモデル間実験により検証する。 Llama と Qwen の家系にわたる結果は、一貫性のあるマルチスケールの組織であるが、強いアーキテクチャ固有のバリエーションを示し、部分的に理論を支持、改善している。これにより、MSPGTは記述的観察から予測的、情報理論的な理解へと解釈可能性を向上させる。

関連論文リスト

Globalization for Scalable Short-term Load Forecasting [7.654516721062505]
本稿では,データドリフトの存在下でのグローバルな負荷予測について検討する。グローバリゼーション、データ不均一性、データドリフトがそれぞれどう影響するかを示す。また,ピーク負荷予測におけるグローバリゼーションの役割と階層予測の可能性についても検討した。
論文参考訳（メタデータ） (2025-07-15T20:58:14Z)
Multi-Scale Manifold Alignment: A Unified Framework for Enhanced Explainability of Large Language Models [4.084134914321567]
近年のLLM(Large Language Models)の進歩は高いパフォーマンスを達成しているが、内部の推論は不透明であり、解釈可能性や重要なアプリケーションに対する信頼が制限されている。提案するMulti_Scale Manifold Alignmentフレームワークは,潜在空間を大域的,中間的,局所的な意味的なマニフォールドに分解し,テーマ,文脈,単語レベルの詳細を抽出する。このフレームワークは、LLMがマルチスケールセマンティクスをどのように構成し、解釈可能性を高め、バイアス検出やロバストネス向上などのアプリケーションを可能にするか、統一的な説明を提供する。
論文参考訳（メタデータ） (2025-05-24T10:25:58Z)
Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency [0.0]
Semantic Layered Embedding Diffusion (SLED) メカニズムは、トランスフォーマーベースのアーキテクチャにおける階層的セマンティクスの表現を再定義する。スペクトル解析に基づく多層拡散プロセスを導入することにより、大域的および局所的セマンティックコヒーレンスの間の複雑なバランスを実現する。実験結果は、様々な領域で効果的に適応するメカニズムの能力を強調し、パープレキシティとBLEUスコアを著しく改善した。
論文参考訳（メタデータ） (2025-01-26T05:17:04Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して- マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文参考訳（メタデータ） (2024-12-03T16:53:58Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。 UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文参考訳（メタデータ） (2023-10-22T08:02:55Z)
Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文参考訳（メタデータ） (2023-10-18T12:32:07Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文参考訳（メタデータ） (2022-08-31T14:16:56Z)
A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。 CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文参考訳（メタデータ） (2022-03-08T02:46:11Z)
Examining Scaling and Transfer of Language Model Architectures for Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文参考訳（メタデータ） (2022-02-01T16:20:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。