論文の概要: Why and How Auxiliary Tasks Improve JEPA Representations
- arxiv url: http://arxiv.org/abs/2509.12249v1
- Date: Fri, 12 Sep 2025 05:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.64865
- Title: Why and How Auxiliary Tasks Improve JEPA Representations
- Title(参考訳): 補助タスクがJEPA表現を改善する理由と方法
- Authors: Jiacan Yu, Siyi Chen, Mingrui Liu, Nono Horiuchi, Vladimir Braverman, Zicheng Xu, Dan Haramati, Randall Balestriero,
- Abstract要約: JEPA(Joint-Embedding Predictive Architecture)は、視覚表現学習やモデルベースRLのコンポーネントとして、ますます使われている。
本稿では,潜在力学と協調して訓練された補助回帰頭部を有する,単純で実用的なJEPA変異体の理論的特徴について述べる。
- 参考スコア(独自算出の注目度): 41.738193511374696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint-Embedding Predictive Architecture (JEPA) is increasingly used for visual representation learning and as a component in model-based RL, but its behavior remains poorly understood. We provide a theoretical characterization of a simple, practical JEPA variant that has an auxiliary regression head trained jointly with latent dynamics. We prove a No Unhealthy Representation Collapse theorem: in deterministic MDPs, if training drives both the latent-transition consistency loss and the auxiliary regression loss to zero, then any pair of non-equivalent observations, i.e., those that do not have the same transition dynamics or auxiliary label, must map to distinct latent representations. Thus, the auxiliary task anchors which distinctions the representation must preserve. Controlled ablations in a counting environment corroborate the theory and show that training the JEPA model jointly with the auxiliary head generates a richer representation than training them separately. Our work indicates a path to improve JEPA encoders: training them with an auxiliary function that, together with the transition dynamics, encodes the right equivalence relations.
- Abstract(参考訳): JEPA(Joint-Embedding Predictive Architecture)は、視覚的表現学習やモデルベースRLの構成要素として使われることが多いが、その振舞いはいまだに理解されていない。
本稿では,潜在力学と協調して訓練された補助回帰頭部を有する,単純で実用的なJEPA変異体の理論的特徴について述べる。
決定論的 MDP において、トレーニングが潜在遷移整合性損失と補助回帰損失の両方を 0 に駆動すると、同じ遷移力学や補助ラベルを持たない任意の非等価な観測、すなわち、同じ遷移力学や補助ラベルを持たないものは、別個の潜在表現にマップしなければならない。
したがって、表現を区別する補助的なタスクアンカーは保存されなければならない。
カウント環境における制御されたアブレーションは、理論を裏付け、補助ヘッドと共同でJEPAモデルをトレーニングすることで、個別にトレーニングするよりもリッチな表現を生成することを示す。
我々の研究は、JEPAエンコーダを改善するための道を示す: 遷移力学とともに正しい等価関係をエンコードする補助関数でそれらを訓練する。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Align & Invert: Solving Inverse Problems with Diffusion and Flow-based Models via Representational Alignment [13.028121107802127]
逆問題では、事前訓練された生成モデルが先行として使用される。
本稿では,拡散モデルとフローベースモデル間の表現アライメント(REPA)を適用することを提案する。
モデル表現と近似的対象特徴との整合性は、再構成の忠実度と知覚的リアリズムを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-11-21T00:37:04Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Stackelberg Coupling of Online Representation Learning and Reinforcement Learning [45.70357546589222]
SCORERは,表現とQラーニングを階層型ゲームにおける2つの戦略エージェントとみなす,価値に基づくRLのためのフレームワークである。
提案するSCORERフレームワークは, 2時間スケールのアルゴリズムで解を近似する二段階最適化問題に導かれる。
論文 参考訳(メタデータ) (2025-08-10T18:36:54Z) - SparseJEPA: Sparse Representation Learning of Joint Embedding Predictive Architectures [0.46040036610482665]
JEPA(Joint Embedding Predictive Architectures)は、汎用的な表現を学ぶための強力なフレームワークとして登場した。
本稿では,スパース表現学習をJEPAフレームワークに統合し,学習表現の質を高める拡張であるSparseJEPAを提案する。
論文 参考訳(メタデータ) (2025-04-22T02:43:00Z) - On the Discrimination and Consistency for Exemplar-Free Class Incremental Learning [19.898602404329697]
Exemplar-free class incremental learning (EF-CIL) は非自明なタスクであり、新しいクラスでモデル能力を継続的に強化し、古いクラスの例を保存・再生することなく、学習した知識を維持しながら、新しいクラスでモデル能力を増強する必要がある。
CILのための新たな理論誘導フレームワークは、共有ネットワークのタスク固有モデルを訓練し、忘れるプレッシャーをタスクID予測にシフトさせる。
EF-CILでは、タスク間相互作用の欠如(例:例題のリプレイ)によりタスクID予測がより困難になる。
論文 参考訳(メタデータ) (2025-01-26T08:50:33Z) - Deep Regression Representation Learning with Topology [57.203857643599875]
回帰表現の有効性は,そのトポロジによってどのように影響されるかを検討する。
本稿では,特徴空間の内在次元と位相を対象空間と一致させる正則化器PH-Regを紹介する。
合成および実世界の回帰タスクの実験はPH-Regの利点を示している。
論文 参考訳(メタデータ) (2024-04-22T06:28:41Z) - Synergistic Anchored Contrastive Pre-training for Few-Shot Relation
Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。
近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。
本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T10:16:24Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。