Fugu-MT 論文翻訳(概要): SPARTAN: A Sparse Transformer Learning Local Causation

論文の概要: SPARTAN: A Sparse Transformer Learning Local Causation

arxiv url: http://arxiv.org/abs/2411.06890v2
Date: Tue, 12 Nov 2024 09:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.444534
Title: SPARTAN: A Sparse Transformer Learning Local Causation
Title（参考訳）: SPARTAN: 局所因果関係を学習するスパーストランスフォーマー
Authors: Anson Lei, Bernhard Schölkopf, Ingmar Posner,
Abstract要約: 因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
参考スコア（独自算出の注目度）: 63.29645501232935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Causal structures play a central role in world models that flexibly adapt to changes in the environment. While recent works motivate the benefits of discovering local causal graphs for dynamics modelling, in this work we demonstrate that accurately capturing these relationships in complex settings remains challenging for the current state-of-the-art. To remedy this shortcoming, we postulate that sparsity is a critical ingredient for the discovery of such local causal structures. To this end we present the SPARse TrANsformer World model (SPARTAN), a Transformer-based world model that learns local causal structures between entities in a scene. By applying sparsity regularisation on the attention pattern between object-factored tokens, SPARTAN identifies sparse local causal models that accurately predict future object states. Furthermore, we extend our model to capture sparse interventions with unknown targets on the dynamics of the environment. This results in a highly interpretable world model that can efficiently adapt to changes. Empirically, we evaluate SPARTAN against the current state-of-the-art in object-centric world models on observation-based environments and demonstrate that our model can learn accurate local causal graphs and achieve significantly improved few-shot adaptation to changes in the dynamics of the environment as well as robustness against removing irrelevant distractors.
Abstract（参考訳）: 因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。最近の研究は、動的モデリングのための局所因果グラフを発見することの利点を動機付けているが、この研究では、これらの関係を複雑な設定で正確に捉えることは、現在の最先端技術では困難である。この欠点を補うために,このような局所的な因果構造の発見には,スパーシリティが重要な要素であると仮定する。本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。さらに,我々のモデルを拡張して,環境のダイナミクスに関する未知のターゲットによるスパース介入を捉える。これにより、変化に効率的に適応できる高度に解釈可能な世界モデルが得られる。実験により,SPARTANを観測環境におけるオブジェクト中心の世界モデルの現状に対して評価し,我々のモデルが正確な局所因果グラフを学習し,環境の動的変化へのわずかな適応を著しく改善し,無関係な乱れを除去する頑健性を実証した。

関連論文リスト

Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。本研究では,時間領域毎に最適な因果予測値が得られることを示す。合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文参考訳（メタデータ） (2025-06-21T14:05:37Z)
Better Decisions through the Right Causal World Model [17.623937562865617]
因果的対象中心モデル抽出ツール(COMET)は、正確に解釈可能な因果的世界モデル(CWM)を学習するために設計された新しいアルゴリズムである。 Pong や Freeway などの Atari 環境で検証した結果,COMET の精度とロバスト性を実証した。
論文参考訳（メタデータ） (2025-04-09T20:29:13Z)
Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文参考訳（メタデータ） (2024-12-16T15:21:04Z)
DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文参考訳（メタデータ） (2024-10-27T00:22:18Z)
Robust Traffic Forecasting against Spatial Shift over Years [11.208740750755025]
新たに提案したトラフィックOODベンチマークを用いて,時空間技術モデルについて検討する。これらのモデルのパフォーマンスが著しく低下していることが分かりました。そこで我々は,学習中にグラフ生成器の集合を学習し,それらを組み合わせて新しいグラフを生成するMixture Expertsフレームワークを提案する。我々の手法は相似的かつ有効であり、任意の時間モデルにシームレスに統合できる。
論文参考訳（メタデータ） (2024-10-01T03:49:29Z)
Partial Models for Building Adaptive Model-Based Reinforcement Learning Agents [37.604622216020765]
部分モデルの概念的にシンプルなアイデアにより、深層モデルに基づくエージェントがこの課題を克服できることを示す。我々は、ディープダイナQ、PlaNet、Dreamerなどのエージェントで部分モデルを使用することで、環境の局所的な変化に効果的に適応できることを示す。
論文参考訳（メタデータ） (2024-05-27T07:46:36Z)
LROC-PANGU-GAN: Closing the Simulation Gap in Learning Crater Segmentation with Planetary Simulators [5.667566032625522]
外国の惑星体への探査機の着陸は、危険を確実に識別し、避けることが重要である。この問題に対するディープラーニングの最近の応用は有望な結果を示している。しかしながら、これらのモデルは、注釈付きデータセットに対する明確な監督によってしばしば学習される。本稿では,ラベルの忠実さを維持しつつ,この「現実主義」のギャップを埋めるシステムを提案する。
論文参考訳（メタデータ） (2023-10-04T12:52:38Z)
Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文参考訳（メタデータ） (2023-03-26T14:57:49Z)
Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文参考訳（メタデータ） (2022-10-01T09:04:17Z)
Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2022-09-29T15:24:47Z)
Change Detection for Local Explainability in Evolving Data Streams [72.4816340552763]
局所的特徴帰属法はポストホックやモデルに依存しない説明法として人気がある。ローカルな属性が、ストリーミングやオンラインアプリケーションのような、現実的で絶えず変化する設定でどのように振る舞うかは、しばしば不明である。局所変化と概念ドリフトを検出するフレキシブルでモデルに依存しないCDLEEDSを提案する。
論文参考訳（メタデータ） (2022-09-06T18:38:34Z)
Variational Causal Dynamics: Discovering Modular World Models from Interventions [25.084146613277973]
後期世界モデルでは、エージェントは高次元の観測で複雑な環境を推論することができる。本稿では,環境間の因果的メカニズムの不変性を利用した構造化世界モデルである,変分因果ダイナミクス(VCD)を提案する。
論文参考訳（メタデータ） (2022-06-22T14:28:40Z)
Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。 CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文参考訳（メタデータ） (2022-01-06T04:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。