論文の概要: Architectural and Inferential Inductive Biases For Exchangeable Sequence Modeling
- arxiv url: http://arxiv.org/abs/2503.01215v1
- Date: Mon, 03 Mar 2025 06:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:44.519315
- Title: Architectural and Inferential Inductive Biases For Exchangeable Sequence Modeling
- Title(参考訳): 交換型シーケンスモデリングのための構造的および推論的帰納的バイアス
- Authors: Daksh Mittal, Ang Li, Tzu-Ching Yen, Daniel Guetta, Hongseok Namkoong,
- Abstract要約: 自己回帰モデルは交換可能なシーケンスをモデリングするための強力なフレームワークとして登場した。
本稿では、交換可能なシーケンスモデリングに最も有効である推論的およびアーキテクチャ的帰納的バイアスについて検討する。
- 参考スコア(独自算出の注目度): 11.018120203982546
- License:
- Abstract: Autoregressive models have emerged as a powerful framework for modeling exchangeable sequences - i.i.d. observations when conditioned on some latent factor - enabling direct modeling of uncertainty from missing data (rather than a latent). Motivated by the critical role posterior inference plays as a subroutine in decision-making (e.g., active learning, bandits), we study the inferential and architectural inductive biases that are most effective for exchangeable sequence modeling. For the inference stage, we highlight a fundamental limitation of the prevalent single-step generation approach: inability to distinguish between epistemic and aleatoric uncertainty. Instead, a long line of works in Bayesian statistics advocates for multi-step autoregressive generation; we demonstrate this "correct approach" enables superior uncertainty quantification that translates into better performance on downstream decision-making tasks. This naturally leads to the next question: which architectures are best suited for multi-step inference? We identify a subtle yet important gap between recently proposed Transformer architectures for exchangeable sequences (Muller et al., 2022; Nguyen & Grover, 2022; Ye & Namkoong, 2024), and prove that they in fact cannot guarantee exchangeability despite introducing significant computational overhead. We illustrate our findings using controlled synthetic settings, demonstrating how custom architectures can significantly underperform standard causal masks, underscoring the need for new architectural innovations.
- Abstract(参考訳): 自己回帰モデルは交換可能なシーケンスをモデリングするための強力なフレームワークとして現れており、すなわち、潜在因子に条件付けされた場合の観察であり、欠落したデータ(潜伏要素ではなく)から不確実性を直接モデリングすることができる。
意思決定において,後続推論がサブルーチンとして機能する重要な役割(例えば,能動的学習,盗賊)を動機として,逐次的およびアーキテクチャ的帰納的バイアスについて検討した。
推論の段階では、一般的な単一ステップ生成アプローチの基本的な限界、すなわち、てんかんとアレタリック不確実性の区別ができない点を強調します。
ベイズ統計学における長い研究は、多段階の自己回帰生成を提唱している。我々は、この「正しいアプローチ」が、下流の意思決定タスクにおいてより良いパフォーマンスをもたらす優れた不確実性定量化を可能にすることを実証する。
どのアーキテクチャがマルチステップ推論に最も適しているのか?
我々は、最近提案された交換可能なシーケンスに対するトランスフォーマーアーキテクチャ(Muller et al , 2022; Nguyen & Grover, 2022; Ye & Namkoong, 2024)間の微妙ながら重要なギャップを同定し、計算オーバーヘッドが著しいにもかかわらず交換性を保証することができないことを証明した。
我々は、制御された合成設定を用いて、カスタムアーキテクチャが標準的な因果マスクを著しく過小評価し、新しいアーキテクチャ革新の必要性を浮き彫りにした。
関連論文リスト
- Variational Bayesian Bow tie Neural Networks with Shrinkage [0.276240219662896]
我々は、標準フィードフォワード修正ニューラルネットワークの緩和版を構築した。
我々は、条件付き線形およびガウス的モデルをレンダリングするために、Polya-Gammaデータ拡張トリックを用いる。
層間における分布仮定や独立性を回避する変分推論アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-11-17T17:36:30Z) - Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。
近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。
合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2024-11-15T12:55:05Z) - Exchangeable Sequence Models Quantify Uncertainty Over Latent Concepts [6.256239986541708]
事前学習されたシーケンスモデルは、交換可能なデータポイントよりも確率論的推論が可能であることを示す。
シーケンスモデルは、典型的なベイズモデルとは異なる観測間の関係を学習する。
シーケンス予測損失が不確実性定量化の品質を制御することを示す。
論文 参考訳(メタデータ) (2024-08-06T17:16:10Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Effects of Architectures on Continual Semantic Segmentation [0.0]
本稿では,ニューラルネットワークアーキテクチャの選択が,クラス・ドメイン・インクリメンタルセマンティックセグメンテーションにおける破滅的忘れにどのように影響するかを検討する。
ResNetのような従来のCNNの可塑性は高いが安定性は低いが、トランスフォーマーアーキテクチャはずっと安定している。
論文 参考訳(メタデータ) (2023-02-21T15:12:01Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - Variational Causal Networks: Approximate Bayesian Inference over Causal
Structures [132.74509389517203]
離散DAG空間上の自己回帰分布をモデル化したパラメトリック変分族を導入する。
実験では,提案した変分後部が真の後部を良好に近似できることを示した。
論文 参考訳(メタデータ) (2021-06-14T17:52:49Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。