論文の概要: Scaling Dense Event-Stream Pretraining from Visual Foundation Models
- arxiv url: http://arxiv.org/abs/2603.03969v1
- Date: Wed, 04 Mar 2026 12:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.2886
- Title: Scaling Dense Event-Stream Pretraining from Visual Foundation Models
- Title(参考訳): Visual Foundation モデルによるDense Event-Stream Pretraining のスケールアップ
- Authors: Zhiwen Chen, Junhui Hou, Zhiyu Zhu, Jinjian Wu, Guangming Shi,
- Abstract要約: 我々は,視覚基礎モデル(VFM)を蒸留して,イベント表現の境界を大規模に推し進める,新しい自己教師型事前学習手法をローンチする。
我々は、クロスモーダルアライメントを増幅するために、広範に同期された画像イベントコレクションをキュレートする。
VFMによって提供されるセマンティックな構造にアライメントの目的を拡張し、より広い受容領域とより強い監督力を示す。
- 参考スコア(独自算出の注目度): 112.44243079477137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning versatile, fine-grained representations from irregular event streams is pivotal yet nontrivial, primarily due to the heavy annotation that hinders scalability in dataset size, semantic richness, and application scope. To mitigate this dilemma, we launch a novel self-supervised pretraining method that distills visual foundation models (VFMs) to push the boundaries of event representation at scale. Specifically, we curate an extensive synchronized image-event collection to amplify cross-modal alignment. Nevertheless, due to inherent mismatches in sparsity and granularity between image-event domains, existing distillation paradigms are prone to semantic collapse in event representations, particularly at high resolutions. To bridge this gap, we propose to extend the alignment objective to semantic structures provided off-the-shelf by VFMs, indicating a broader receptive field and stronger supervision. The key ingredient of our method is a structure-aware distillation loss that grounds higher-quality image-event correspondences for alignment, optimizing dense event representations. Extensive experiments demonstrate that our approach takes a great leap in downstream benchmarks, significantly surpassing traditional methods and existing pretraining techniques. This breakthrough manifests in enhanced generalization, superior data efficiency and elevated transferability.
- Abstract(参考訳): 不規則なイベントストリームから汎用的できめ細かな表現を学ぶことは、中心的だが、主にデータセットサイズ、セマンティックリッチネス、アプリケーションスコープのスケーラビリティを妨げる重いアノテーションのため、重要ではない。
このジレンマを緩和するために、視覚基礎モデル(VFM)を蒸留してイベント表現の境界を大規模に推し進める、新しい自己教師型事前学習手法をローンチする。
具体的には、クロスモーダルアライメントを増幅するために、広範に同期された画像イベントコレクションをキュレートする。
それでも、画像交換領域間の空間的ミスマッチと粒度の相違により、既存の蒸留パラダイムは、特に高分解能において、事象表現において意味的な崩壊を起こす傾向にある。
このギャップを埋めるために,本研究では,VFMによって提供されるセマンティックな構造にアライメントの目的を拡張し,より広い受容場とより強い監督力を示すことを提案する。
本手法の主な要素は,高精細なイベント表現を最適化し,高精細な画像・イベント対応を基礎とした構造対応蒸留損失である。
大規模な実験により、我々のアプローチはダウンストリームベンチマークにおいて飛躍的に飛躍し、従来の手法や既存の事前学習手法をはるかに上回っていることが示される。
このブレークスルーは、一般化の向上、データ効率の向上、転送可能性の向上に現れている。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios [9.82847623835017]
GLOWDeblurは、畳み込みベースの事前再構成とドメインアライメントモジュールと軽量な拡散バックボーンを組み合わせた、一般化可能なreaL-wOrld Light Weight Deblurモデルである。
本稿では,Blur Pattern Pretraining (BPP)を提案する。
我々はさらに、高度劣化下でぼやけた前兆を強化するためにMoSeG(MoSeG)を導入し、それをGLOWDeblur(GLOWDeblur)に統合する。
論文 参考訳(メタデータ) (2026-01-10T11:01:31Z) - Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。
我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文 参考訳(メタデータ) (2025-06-02T11:05:28Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。
提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。
このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-06-10T06:29:00Z) - Multi-Class Segmentation from Aerial Views using Recursive Noise Diffusion [16.86600007830682]
本稿では,エンドツーエンドのセマンティックセマンティックセマンティクス拡散モデルを提案する。
提案手法はUAVidデータセット上で有望な結果を得る。
このメソッドの最初のイテレーションであるため、将来の改善には大いに期待できます。
論文 参考訳(メタデータ) (2022-12-01T18:59:26Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。