Fugu-MT 論文翻訳(概要): Semantic Interaction Information mediates compositional generalization in latent space

論文の概要: Semantic Interaction Information mediates compositional generalization in latent space

arxiv url: http://arxiv.org/abs/2603.27134v1
Date: Sat, 28 Mar 2026 04:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.801412
Title: Semantic Interaction Information mediates compositional generalization in latent space
Title（参考訳）: 意味的相互作用情報を用いた潜在空間における構成一般化
Authors: John Schwarcz,
Abstract要約: 我々は、静止部分観測可能なマルコフ決定過程(POMDP)である認知グリッドワールドを開発する。観測は複数の潜伏変数によって共同で生成されるが、フィードバックは1つのゴール変数に限られる。本研究では,これらのインタラクションを備えたリカレントニューラルネットワーク(RNN)を分析し,意味的相互作用情報(SII)がEcho状態とフルトレーニングネットワークの精度ギャップを説明する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Are there still barriers to generalization once all relevant variables are known? We address this question via a framework that casts compositional generalization as a variational inference problem over latent variables with parametric interactions. To explore this, we develop the Cognitive Gridworld, a stationary Partially Observable Markov Decision Process (POMDP) where observations are generated jointly by multiple latent variables, yet feedback is provided for only a single goal variable. This setting allows us to define Semantic Interaction Information (SII): a metric measuring the contribution of latent variable interactions to task performance. Using SII, we analyze Recurrent Neural Networks (RNNs) provided with these interactions, finding that SII explains the accuracy gap between Echo State and Fully Trained networks. Our analysis also uncovers a theoretically predicted failure mode where confidence decouples from accuracy, suggesting that utilizing interactions between relevant variables is a non-trivial capability. We then address a harder regime where the interactions must be learned by an embedding model. Learning how latent variables interact requires accurate inference, yet accurate inference depends on knowing those interactions. The Cognitive Gridworld reveals this circular dependence as a core challenge for continual meta-learning. We approach this dilemma via Representation Classification Chains (RCCs), a JEPA-style architecture that disentangles these processes: variable inference and variable embeddings are learned by separate modules through Reinforcement Learning and self-supervised learning, respectively. Lastly, we demonstrate that RCCs facilitate compositional generalization to novel combinations of relevant variables. Together, these results establish a grounded setting for evaluating goal-directed generalist agents.
Abstract（参考訳）: すべての関連する変数が知られると、まだ一般化の障壁はあるだろうか? パラメトリックな相互作用を持つ潜伏変数に対する変分推論問題として構成一般化を論じるフレームワークを用いてこの問題に対処する。そこで我々は,複数の潜伏変数によって観測結果が共同生成され,単一の目標変数に対してのみフィードバックが提供される,定常部分観測可能なマルコフ決定過程(POMDP)であるCognitive Gridworldを開発した。この設定により、タスクパフォーマンスに対する潜在変数相互作用の寄与を測定する指標として、セマンティックインタラクション情報(SII)を定義することができる。 SIIを用いて、これらの相互作用を備えたリカレントニューラルネットワーク(RNN)を分析し、SIIがエコー状態とフルトレーニングネットワークの精度ギャップを説明する。また,信頼度を精度から切り離す理論的に予測された障害モードを明らかにし,関連する変数間の相互作用を活用することは非自明な能力であることを示す。次に、埋め込みモデルによって相互作用を学ばなければならない難しい状況に対処する。潜伏変数がどのように相互作用するかを学ぶには正確な推論が必要であるが、正確な推論はそれらの相互作用を知ることに依存する。 Cognitive Gridworldは、この円形依存を、継続的なメタ学習のコアチャレンジとして明らかにしている。このジレンマにはRepresentation Classification Chains (RCCs) を用いてアプローチする。これはJEPAスタイルのアーキテクチャであり、変数推論と変数埋め込みはReinforcement Learningとセルフ教師付き学習によってそれぞれ異なるモジュールによって学習される。最後に、RCCが関連する変数の新たな組み合わせへの合成一般化を促進することを実証する。これらの結果は、目標指向のジェネリストエージェントを評価するための基礎的な設定を確立する。

関連論文リスト

Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文参考訳（メタデータ） (2024-02-06T12:18:54Z)
Deep Learning-based Group Causal Inference in Multivariate Time-series [8.073449277052495]
多変量時空の非線形系における因果推論は、変数間の関係の複雑な網を遠ざけるのに役立っている。本研究では,学習した深層ネットワークに対するグループレベルの介入によるモデルの不変性を検証し,変数群の因果方向を推定する。
論文参考訳（メタデータ） (2024-01-16T14:19:28Z)
iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive Noise Models [48.33685559041322]
本稿では,同一変数集合上の2つ以上の関連するデータセットにおける因果メカニズムシフトの同定に焦点をあてる。提案手法を実装したコードはオープンソースであり、https://github.com/kevinsbello/iSCAN.comで公開されている。
論文参考訳（メタデータ） (2023-06-30T01:48:11Z)
On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文参考訳（メタデータ） (2023-06-07T21:35:26Z)
Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文参考訳（メタデータ） (2023-01-19T18:39:48Z)
DIDER: Discovering Interpretable Dynamically Evolving Relations [14.69985920418015]
本稿では,内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDER,Discovering Interpretable Dynamically Evolving Relationsを紹介する。合成と実世界の両方のデータセット上でDIDERを評価する。
論文参考訳（メタデータ） (2022-08-22T20:55:56Z)
Disentanglement Analysis with Partial Information Decomposition [31.56299813238937]
不整合表現は、異なる生成因子を個別にキャプチャする複数のランダム変数にデータをマッピングすることで、プロセスを逆転させることを目的としている。現在の遠絡測定値は、各生成因子によって条件付けられた各変数の絶対偏差、分散、エントロピーなどの濃度を測定するように設計されている。本研究では,2つ以上の変数間の情報共有を評価するために部分情報分解フレームワークを使用し,新しいアンタングル化指標を含むフレームワークを構築する。
論文参考訳（メタデータ） (2021-08-31T11:09:40Z)
Disentangling Observed Causal Effects from Latent Confounders using Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文参考訳（メタデータ） (2021-01-17T07:48:45Z)
Visual Neural Decomposition to Explain Multivariate Data Sets [13.117139248511783]
多次元データセットにおける変数間の関係を調べることは、データアナリストとエンジニアにとって共通の課題である。本稿では,入力変数と対象変数との相関関係を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2020-09-11T15:53:37Z)
NestedVAE: Isolating Common Factors via Weak Supervision [45.366986365879505]
我々は、バイアス低減の課題と、ドメイン間で共通する分離要因の関係を同定する。共通因子を分離するために、潜伏変数モデルの理論と情報ボトルネック理論を組み合わせる。共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。
論文参考訳（メタデータ） (2020-02-26T15:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。