論文の概要: Circuit Stability Characterizes Language Model Generalization
- arxiv url: http://arxiv.org/abs/2505.24731v1
- Date: Fri, 30 May 2025 15:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.053718
- Title: Circuit Stability Characterizes Language Model Generalization
- Title(参考訳): 言語モデルの一般化を特徴付ける回路安定性
- Authors: Alan Sun,
- Abstract要約: モデル性能を評価する新しい手法として回路安定性を導入する。
回路安定性と回路等価性を数学的に定式化する。
回路安定性とその欠如が一般化の異なる側面を特徴づけ、予測できることを実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extensively evaluating the capabilities of (large) language models is difficult. Rapid development of state-of-the-art models induce benchmark saturation, while creating more challenging datasets is labor-intensive. Inspired by the recent developments in mechanistic interpretability, we introduce circuit stability as a new way to assess model performance. Circuit stability refers to a model's ability to apply a consistent reasoning process-its circuit-across various inputs. We mathematically formalize circuit stability and circuit equivalence. Then, through three case studies, we empirically show that circuit stability and the lack thereof can characterize and predict different aspects of generalization. Our proposed methods offer a step towards rigorously relating the generality of models to their interpretability.
- Abstract(参考訳): 大規模な(大規模な)言語モデルの能力を評価するのは難しい。
最先端モデルの迅速な開発は、ベンチマーク飽和を誘発する一方で、より困難なデータセットを作成することは、労働集約的である。
近年の機械的解釈可能性の発達に触発されて,回路安定性をモデル性能評価の新しい手法として導入する。
回路安定性は、様々な入力に対して一貫した推論プロセスを適用するモデルの能力を指す。
回路安定性と回路等価性を数学的に定式化する。
そして、3つのケーススタディを通じて、回路安定性とその欠如が一般化の異なる側面を特徴づけ、予測できることを実証的に示す。
提案手法は,モデルの一般化と解釈可能性とを厳密に関連付けるためのステップを提供する。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Benchmarking Autoregressive Conditional Diffusion Models for Turbulent Flow Simulation [26.520247496906492]
本研究では,条件付き拡散モデルに基づく自動回帰ロールアウトを利用した完全データ駆動型流体解法が,この問題に対処するための有効な選択肢であるかどうかを解析する。
各種流速予測手法の性能を定量的に定性的に評価するために, 非圧縮性および超音速流を含む3つの難解な2次元シナリオと等方性乱流を用いる。
単純な拡散に基づくアプローチであっても、トレーニング時のアンロールのような最先端の安定化技術と同等でありながら、精度と時間的安定性の観点から、複数の確立したフロー予測手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-09-04T18:01:42Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Stability Preserving Data-driven Models With Latent Dynamics [0.0]
本稿では,潜在変数を用いた動的問題に対するデータ駆動型モデリング手法を提案する。
本稿では,結合力学の安定性を容易に適用できるモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-20T00:41:10Z) - Input-to-State Stable Neural Ordinary Differential Equations with
Applications to Transient Modeling of Circuits [11.636872461683742]
本稿では,入力から状態への安定な連続時間リカレントニューラルネットワークによってパラメータ化されたニューラル常微分方程式のクラスを提案する。
提案手法を用いて電子回路の動作モデルを安価にシミュレーションする。
論文 参考訳(メタデータ) (2022-02-14T01:51:05Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。