Fugu-MT 論文翻訳(概要): Measuring In-Context Computation Complexity via Hidden State Prediction

論文の概要: Measuring In-Context Computation Complexity via Hidden State Prediction

arxiv url: http://arxiv.org/abs/2503.13431v1
Date: Mon, 17 Mar 2025 17:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.427981
Title: Measuring In-Context Computation Complexity via Hidden State Prediction
Title（参考訳）: 隠れ状態予測による文脈内計算複雑性の測定
Authors: Vincent Herrmann, Róbert Csordás, Jürgen Schmidhuber,
Abstract要約: ニューラルネットワークモデルが将来の隠れ状態を予測する能力は、タスクの直感的な面白さと相関していることを示す。本稿では,各ステップで得られた新しい情報を測定するための,新しい学習予測手法を提案する。提案手法は, 文脈内で学習した形式言語の記述長, 数学的推論問題の複雑さ, 自己生成推論連鎖の正確性を予測する。
参考スコア（独自算出の注目度）: 33.504027525492056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting when a neural sequence model does "interesting" computation is an open problem. The next token prediction loss is a poor indicator: Low loss can stem from trivially predictable sequences that are uninteresting, while high loss may reflect unpredictable but also irrelevant information that can be ignored by the model. We propose a better metric: measuring the model's ability to predict its own future hidden states. We show empirically that this metric -- in contrast to the next token prediction loss -- correlates with the intuitive interestingness of the task. To measure predictability, we introduce the architecture-agnostic "prediction of hidden states" (PHi) layer that serves as an information bottleneck on the main pathway of the network (e.g., the residual stream in Transformers). We propose a novel learned predictive prior that enables us to measure the novel information gained in each computation step, which serves as our metric. We show empirically that our metric predicts the description length of formal languages learned in-context, the complexity of mathematical reasoning problems, and the correctness of self-generated reasoning chains.
Abstract（参考訳）: ニューラルネットワークモデルが"興味深い"計算を行う場合の検出は、オープンな問題である。低い損失は、興味のない自明な予測可能なシーケンスから生じるが、高い損失は予測不可能だが、モデルによって無視できる無関係な情報を反映する可能性がある。モデルが将来隠れた状態を予測できる能力を測定する。このメトリクスは、次のトークン予測損失とは対照的に、タスクの直感的な面白さと相関していることを実証的に示します。予測可能性を測定するために,ネットワークの主要経路(例えば,トランスフォーマーの残ストリーム)における情報ボトルネックとして機能する,アーキテクチャに依存しない隠れ状態の予測(PHi)層を導入する。本稿では,各計算ステップで得られた新しい情報を測定するための,新しい学習予測手法を提案する。提案手法は, 文脈内で学習した形式言語の記述長, 数学的推論問題の複雑さ, 自己生成的推論連鎖の正確性を予測する。

関連論文リスト

Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文参考訳（メタデータ） (2025-02-18T23:13:16Z)
Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文参考訳（メタデータ） (2024-05-30T10:49:22Z)
Extracting Usable Predictions from Quantized Networks through Uncertainty Quantification for OOD Detection [0.0]
OOD検出は、ネットワーク設計の進歩とタスクの複雑さの増大により、より重要になっている。本稿では、事前学習された視覚モデルから予測の不確かさを定量化する不確実性定量化(UQ)手法を提案する。我々の手法は、無視されたサンプルの80%が誤分類されるのを防いでいることを観察する。
論文参考訳（メタデータ） (2024-03-02T03:03:29Z)
Uncovering the Missing Pattern: Unified Framework Towards Trajectory Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T14:27:27Z)
Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。トラクタブル回路において,これを効率的に計算する方法を示す。我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文参考訳（メタデータ） (2023-02-28T00:04:22Z)
Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文参考訳（メタデータ） (2022-06-27T10:18:41Z)
Uncertainty estimation of pedestrian future trajectory using Bayesian approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文参考訳（メタデータ） (2022-05-04T04:23:38Z)
NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文参考訳（メタデータ） (2022-02-07T12:30:45Z)
Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文参考訳（メタデータ） (2022-01-25T06:23:10Z)
Uncertainty Intervals for Graph-based Spatio-Temporal Traffic Prediction [0.0]
本研究では,従来の時間ステップの測定値から密度を推定するよう訓練された時空間ニューラルネットワークを提案する。この密度推定法はニューラルネットワークによって完全にパラメータ化され, 内部では近似値を用いない。このアプローチは、モンテカルロドロップアウトのような推論中にサンプリングする必要なしに不確実性推定を生成する。
論文参考訳（メタデータ） (2020-12-09T18:02:26Z)
Explaining the Behavior of Black-Box Prediction Algorithms with Causal Learning [8.256305306293847]
ブラックボックス予測モデルのポストホック説明可能性に対する因果的アプローチは、ますます人気が高まっている。因果図形表現を学習し、特徴間の任意の非計測的共起を可能にする。我々のアプローチは、適切な説明が介入論的な意味で「異論者」である要因を示唆する因果説明の反実理論によって動機付けられている。
論文参考訳（メタデータ） (2020-06-03T19:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。