論文の概要: DSeq-JEPA: Discriminative Sequential Joint-Embedding Predictive Architecture
- arxiv url: http://arxiv.org/abs/2511.17354v1
- Date: Fri, 21 Nov 2025 16:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.101776
- Title: DSeq-JEPA: Discriminative Sequential Joint-Embedding Predictive Architecture
- Title(参考訳): DSeq-JEPA: 差別的なシーケンシャルな結合予測アーキテクチャ
- Authors: Xiangteng He, Shunsuke Sakai, Kun Yuan, Nicolas Padoy, Tatsuhito Hasegawa, Leonid Sigal,
- Abstract要約: DSeq-JEPAは、JEPAスタイルの潜伏予測とGPTスタイルのシーケンシャル推論を統合することで、予測的および自己回帰的自己教師型学習を橋渡しする。
DSeq-JEPAは、I-JEPA変種よりも差別的で一般化可能な表現に一貫して焦点を合わせている。
- 参考スコア(独自算出の注目度): 34.31498256147088
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image-based Joint-Embedding Predictive Architecture (I-JEPA) learns visual representations by predicting latent embeddings of masked regions from visible context. However, it treats all regions uniformly and independently, lacking an explicit notion of where or in what order predictions should be made. Inspired by human visual perception, which deploys attention selectively and sequentially from the most informative to secondary regions, we propose DSeq-JEPA, a Discriminative Sequential Joint-Embedding Predictive Architecture that bridges predictive and autoregressive self-supervised learning, integrating JEPA-style latent prediction with GPT-style sequential reasoning. Specifically, DSeq-JEPA (i) first identifies primary discriminative regions based on a transformer-derived saliency map, emphasizing the distribution of visual importance, and then (ii) predicts subsequent regions in this discriminative order, progressively forming a curriculum-like semantic progression from primary to secondary cues -- a form of GPT-style pre-training. Extensive experiments across diverse tasks, including image classification (ImageNet), fine-grained visual categorization (iNaturalist21, CUB-200-2011, Stanford-Cars), detection and segmentation (MS-COCO, ADE20K), and low-level reasoning tasks (Clevr/Count, Clevr/Dist), demonstrate that DSeq-JEPA consistently focuses on more discriminative and generalizable representations than I-JEPA variants. Project page: https://github.com/SkyShunsuke/DSeq-JEPA.
- Abstract(参考訳): 画像ベース統合埋め込み予測アーキテクチャ(I-JEPA)は、視覚的コンテキストからマスクされた領域の潜伏埋め込みを予測することで視覚表現を学習する。
しかし、すべての領域を一様かつ独立に扱い、どこで、どの順序で予測すべきかという明確な概念を欠いている。
人間の視覚知覚にインスパイアされたDSeq-JEPAは、予測的・自己回帰的自己教師型学習をブリッジし、JEPAスタイルの潜伏予測とGPTスタイルの逐次推論を統合する。
具体的にはDSeq-JEPA
(i)まず、トランスフォーマー由来のサリエンシマップに基づいて一次識別領域を特定し、視覚的重要性の分布を強調する。
(ii) この識別順序の後の領域を予測し、カリキュラムのようなセマンティック・プログレッシブを一次から二次へと段階的に形成する。
画像分類(ImageNet)、きめ細かい視覚分類(iNaturalist21、CUB-200-2011、Stanford-Cars)、検出とセグメンテーション(MS-COCO、ADE20K)、低レベルの推論タスク(Clevr/Count、Clevr/Dist)を含む幅広い実験により、DSeq-JEPAはI-JEPA変種よりも差別的で一般化可能な表現に一貫して焦点を絞っていることが示されている。
プロジェクトページ:https://github.com/SkyShunsuke/DSeq-JEPA
関連論文リスト
- ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning [14.869908713261227]
Contrastive-JEPAは、画像ベースのジョイントエンベッドディング予測アーキテクチャと可変不変共分散正規化(VICReg)戦略を統合している。
C-JEPAは視覚表現学習の安定性と品質を大幅に向上させる。
ImageNet-1Kデータセットで事前トレーニングされた場合、C-JEPAは線形プローブと微調整パフォーマンスメトリクスの両方において、迅速で改善された収束を示す。
論文 参考訳(メタデータ) (2024-10-25T13:48:12Z) - Graph-level Representation Learning with Joint-Embedding Predictive Architectures [43.89120279424267]
JEPA(Joint-Embedding Predictive Architectures)は、自己指導型表現学習の斬新で強力な技術である。
グラフ結合埋め込み予測アーキテクチャ(Graph-JEPA)を提案することにより、このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示す。
特に、マスク付きモデリングを採用し、コンテキストサブグラフの潜時表現から始まるマスク付きサブグラフの潜時表現を予測することに焦点をあてる。
論文 参考訳(メタデータ) (2023-09-27T20:42:02Z) - 1st Place Solution for PSG competition with ECCV'22 SenseHuman Workshop [1.5362025549031049]
Panoptic Scene Graph (PSG) の生成は、厳密なバウンディングボックスの代わりに、パノプティックセグメンテーションに基づいてシーングラフ表現を生成することを目的としている。
本稿では,Global Relation Networkの2段階パラダイムであるGRNetを提案する。
我々はOpenPSGデータセットの総合的な実験を行い、リードボード上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-06T09:47:46Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。