論文の概要: Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey
- arxiv url: http://arxiv.org/abs/2312.10163v1
- Date: Fri, 15 Dec 2023 19:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:11:42.671346
- Title: Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey
- Title(参考訳): 生成的・識別的視覚基盤モデルの統一に向けて:調査
- Authors: Xu Liu, Tong Zhou, Yuanxin Wang, Yuping Wang, Qinjingwen Cao, Weizhi
Du, Yonghuan Yang, Junjun He, Yu Qiao, Yiqing Shen
- Abstract要約: 視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
- 参考スコア(独自算出の注目度): 30.528346074194925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of foundation models, which are pre-trained on vast datasets, has
ushered in a new era of computer vision, characterized by their robustness and
remarkable zero-shot generalization capabilities. Mirroring the transformative
impact of foundation models like large language models (LLMs) in natural
language processing, visual foundation models (VFMs) have become a catalyst for
groundbreaking developments in computer vision. This review paper delineates
the pivotal trajectories of VFMs, emphasizing their scalability and proficiency
in generative tasks such as text-to-image synthesis, as well as their adeptness
in discriminative tasks including image segmentation. While generative and
discriminative models have historically charted distinct paths, we undertake a
comprehensive examination of the recent strides made by VFMs in both domains,
elucidating their origins, seminal breakthroughs, and pivotal methodologies.
Additionally, we collate and discuss the extensive resources that facilitate
the development of VFMs and address the challenges that pave the way for future
research endeavors. A crucial direction for forthcoming innovation is the
amalgamation of generative and discriminative paradigms. The nascent
application of generative models within discriminative contexts signifies the
early stages of this confluence. This survey aspires to be a contemporary
compendium for scholars and practitioners alike, charting the course of VFMs
and illuminating their multifaceted landscape.
- Abstract(参考訳): 膨大なデータセットで事前学習された基礎モデルの出現は、その堅牢性と目立ったゼロショット一般化能力によって特徴付けられる、コンピュータビジョンの新たな時代へと導いてきた。
自然言語処理における大規模言語モデル(LLM)のような基礎モデルの変革的影響を反映して、視覚基盤モデル(VFM)はコンピュータビジョンにおける基盤的発展の触媒となっている。
本稿では,VFMの重要軌跡を概説し,テキスト・ツー・イメージ合成などの生成タスクにおけるスケーラビリティと習熟度,および画像セグメンテーションを含む識別タスクにおける有効性を強調した。
生成的および識別的モデルは歴史的に異なる経路をグラフ化してきたが、我々は両領域におけるVFMによる最近の進歩を包括的に検証し、その起源、初歩的なブレークスルー、そして重要な方法論を解明した。
さらに, VFMの開発を促進する広範な資源について検討し, 今後の研究への道を開く課題に対処する。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
識別的文脈における生成モデルの誕生は、この合流の初期段階を意味する。
この調査は、VFMのコースを図解し、その多面的な風景を照らすことで、学者や実践家らにとって現代のコンペディションになることを志している。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。
本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文 参考訳(メタデータ) (2024-03-30T02:55:49Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - A Survey for Foundation Models in Autonomous Driving [10.315409708116865]
大規模言語モデルは、自動運転における計画とシミュレーションに寄与する。
ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応している。
多様な入力を統合するマルチモーダル基礎モデルは、例外的な視覚的理解と空間的推論を示す。
論文 参考訳(メタデータ) (2024-02-02T02:44:59Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。
VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。
FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文 参考訳(メタデータ) (2023-10-09T14:57:05Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。