論文の概要: Visual Bridge: Universal Visual Perception Representations Generating
- arxiv url: http://arxiv.org/abs/2511.07877v1
- Date: Wed, 12 Nov 2025 01:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.517542
- Title: Visual Bridge: Universal Visual Perception Representations Generating
- Title(参考訳): Visual Bridge: ユニバーサルな視覚知覚表現の生成
- Authors: Yilin Gao, Shuguang Dou, Junzhou Li, Zhiheng Yu, Yin Li, Dongsheng Jiang, Shugong Xu,
- Abstract要約: 複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。
我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
- 参考スコア(独自算出の注目度): 27.034175361589572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have achieved remarkable success in isolated computer vision tasks such as text-to-image generation, depth estimation, and optical flow. However, these models are often restricted by a ``single-task-single-model'' paradigm, severely limiting their generalizability and scalability in multi-task scenarios. Motivated by the cross-domain generalization ability of large language models, we propose a universal visual perception framework based on flow matching that can generate diverse visual representations across multiple tasks. Our approach formulates the process as a universal flow-matching problem from image patch tokens to task-specific representations rather than an independent generation or regression problem. By leveraging a strong self-supervised foundation model as the anchor and introducing a multi-scale, circular task embedding mechanism, our method learns a universal velocity field to bridge the gap between heterogeneous tasks, supporting efficient and flexible representation transfer. Extensive experiments on classification, detection, segmentation, depth estimation, and image-text retrieval demonstrate that our model achieves competitive performance in both zero-shot and fine-tuned settings, outperforming prior generalist and several specialist models. Ablation studies further validate the robustness, scalability, and generalization of our framework. Our work marks a significant step towards general-purpose visual perception, providing a solid foundation for future research in universal vision modeling.
- Abstract(参考訳): 近年の拡散モデルの発展は、テキスト・ツー・イメージ生成、深さ推定、光の流れといった孤立したコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかしながら、これらのモデルは'single-task-single-model''パラダイムによって制限され、マルチタスクシナリオにおける一般化性とスケーラビリティを著しく制限する。
大規模言語モデルのクロスドメイン一般化能力により,複数のタスクにまたがる多様な視覚表現を生成可能なフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。
本手法は,画像パッチトークンからタスク固有の表現まで,独立した生成や回帰問題ではなく,普遍的なフローマッチング問題として定式化したものである。
本手法は,強力な自己教師型基礎モデルをアンカーとして活用し,マルチスケールの円弧型タスク埋め込み機構を導入することにより,不均一なタスク間のギャップを埋める普遍的な速度場を学習し,効率よく柔軟な表現伝達をサポートする。
分類, 検出, セグメンテーション, 深度推定, 画像テキスト検索に関する広範囲な実験により, ゼロショットと微調整の両方において, モデルが競合性能を達成し, 先行ジェネラリストや複数のスペシャリストモデルより優れていたことを示す。
アブレーション研究は、我々のフレームワークの堅牢性、スケーラビリティ、および一般化をさらに検証する。
我々の研究は、汎用的な視覚知覚への重要な一歩であり、ユニバーサルビジョンモデリングにおける将来の研究の基盤となる。
関連論文リスト
- Exploring Scalable Unified Modeling for General Low-Level Vision [39.89755374452788]
低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。
このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。
我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
論文 参考訳(メタデータ) (2025-07-20T03:22:52Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-03-25T17:57:17Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。