Fugu-MT 論文翻訳(概要): Dissociating model architectures from inference computations

論文の概要: Dissociating model architectures from inference computations

arxiv url: http://arxiv.org/abs/2507.15776v1
Date: Mon, 21 Jul 2025 16:30:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 20:51:32.485149
Title: Dissociating model architectures from inference computations
Title（参考訳）: 推論計算からモデルアーキテクチャを解離する
Authors: Noor Sajid, Johan Medrano,
Abstract要約: 自己回帰モデルと深部時間モデルが非マルコフ列モデリングの処理においてどのように異なるかを示す。本研究では, 時間的深部計算を自己回帰モデルで模倣し, 反復的推論中にコンテキストアクセスを構造化できることを実証する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Parr et al., 2025 examines how auto-regressive and deep temporal models differ in their treatment of non-Markovian sequence modelling. Building on this, we highlight the need for dissociating model architectures, i.e., how the predictive distribution factorises, from the computations invoked at inference. We demonstrate that deep temporal computations are mimicked by autoregressive models by structuring context access during iterative inference. Using a transformer trained on next-token prediction, we show that inducing hierarchical temporal factorisation during iterative inference maintains predictive capacity while instantiating fewer computations. This emphasises that processes for constructing and refining predictions are not necessarily bound to their underlying model architectures.
Abstract（参考訳）: Parr et al , 2025 は非マルコフ列モデリングにおける自己回帰モデルと深部時間モデルの違いについて検討した。これに基づいて、モデルアーキテクチャの解離の必要性、すなわち、推論時に呼び出された計算から予測分布がどのように分解するかを強調する。本研究では, 時間的深部計算を自己回帰モデルで模倣し, 反復的推論中にコンテキストアクセスを構造化できることを実証する。次トーケン予測に基づいて訓練された変換器を用いて、反復推論における階層的時間分解は、少ない計算をインスタンス化しながら予測能力を維持することを示す。これは、予測の構築と精細化のプロセスが、必ずしも基礎となるモデルアーキテクチャに縛られるとは限らないことを強調している。

関連論文リスト

Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文参考訳（メタデータ） (2025-05-11T17:44:14Z)
Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文参考訳（メタデータ） (2024-10-08T14:22:40Z)
Approximate learning of parsimonious Bayesian context trees [0.0]
提案するフレームワークは、合成および実世界のデータ例に基づいてテストされる。これは、実際のタンパク質配列やハニーポットコンピュータターミナルセッションに適合すると、既存のシーケンスモデルより優れている。
論文参考訳（メタデータ） (2024-07-27T11:50:40Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Last layer state space model for representation learning and uncertainty quantification [0.0]
本稿では,低次元状態を学ぶための表現学習段階と,不確実性推定のための状態空間モデルという2つのステップで分類・回帰タスクを分解することを提案する。我々は、状態空間をベースとした最後の層を追加することで、既存のトレーニング済みニューラルネットワーク上に予測分布を推定する方法を実証する。我々のモデルは、未知あるいは不利用可能な変数のため、ノイズの多いデータ構造を考慮し、予測に対して信頼区間を提供することができる。
論文参考訳（メタデータ） (2023-07-04T08:37:37Z)
ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文参考訳（メタデータ） (2023-04-07T15:17:48Z)
Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文参考訳（メタデータ） (2021-09-28T05:30:52Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)
Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文参考訳（メタデータ） (2020-07-10T05:05:26Z)
Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文参考訳（メタデータ） (2020-02-11T11:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。