Fugu-MT 論文翻訳(概要): Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

論文の概要: Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective

arxiv url: http://arxiv.org/abs/2410.22217v1
Date: Tue, 29 Oct 2024 16:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.937755
Title: Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective
Title（参考訳）: ビジョンファウンデーションモデルにおける理解と生成の統一に向けて:自己回帰の視点から
Authors: Shenghao Xie, Wenqiang Zu, Mingyang Zhao, Duo Su, Shilong Liu, Ruohua Shi, Guoqi Li, Shanghang Zhang, Lei Ma,
Abstract要約: 本稿では、最近の進歩を概観し、自己回帰的視覚基盤モデルの将来的な方向性について論じる。我々は,次世代の視覚基礎モデルのトレンドを提示し,視覚タスクの理解と生成を統一する。我々は、自己回帰的視覚基盤モデルを、その視覚トークン化剤と自己回帰バックボーンから分類する。
参考スコア（独自算出の注目度）: 31.527120945663725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregression in large language models (LLMs) has shown impressive scalability by unifying all language tasks into the next token prediction paradigm. Recently, there is a growing interest in extending this success to vision foundation models. In this survey, we review the recent advances and discuss future directions for autoregressive vision foundation models. First, we present the trend for next generation of vision foundation models, i.e., unifying both understanding and generation in vision tasks. We then analyze the limitations of existing vision foundation models, and present a formal definition of autoregression with its advantages. Later, we categorize autoregressive vision foundation models from their vision tokenizers and autoregression backbones. Finally, we discuss several promising research challenges and directions. To the best of our knowledge, this is the first survey to comprehensively summarize autoregressive vision foundation models under the trend of unifying understanding and generation. A collection of related resources is available at https://github.com/EmmaSRH/ARVFM.
Abstract（参考訳）: 大規模言語モデル(LLM)における自己回帰は、すべての言語タスクを次のトークン予測パラダイムに統合することで、素晴らしいスケーラビリティを示しています。近年、この成功をビジョンファウンデーションモデルに拡張することへの関心が高まっている。本稿では,近年の進歩を概観し,自己回帰的視覚基盤モデルの今後の方向性について論じる。まず,次世代の視覚基盤モデル,すなわち視覚タスクの理解と生成を統一する傾向を示す。次に,既存の視覚基盤モデルの限界を分析し,その利点を活かした自己回帰の形式的定義を示す。後述する自己回帰的視覚基盤モデルは、その視覚トークン化剤と自己回帰バックボーンから分類する。最後に,いくつかの有望な研究課題と方向性について論じる。我々の知る限りでは、統一された理解と生成の傾向の下で自己回帰的視覚基盤モデルを包括的に要約する最初の調査である。関連するリソースのコレクションはhttps://github.com/EmmaSRH/ARVFMで公開されている。

関連論文リスト

Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-06T17:06:25Z)
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities [22.476740954286836]
今後の研究を導くための総合的な調査を行う。既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
論文参考訳（メタデータ） (2025-05-05T11:18:03Z)
How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.23394353614928]
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文参考訳（メタデータ） (2024-12-11T07:29:04Z)
A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文参考訳（メタデータ） (2024-11-13T14:59:41Z)
Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (2024-11-08T17:15:12Z)
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文参考訳（メタデータ） (2024-09-23T17:47:59Z)
Heterogeneous Contrastive Learning for Foundation Models and Beyond [73.74745053250619]
ビッグデータと人工知能の時代において、新しいパラダイムは、大規模な異種データをモデル化するために、対照的な自己教師付き学習を活用することである。本調査は基礎モデルの異種コントラスト学習の現況を批判的に評価する。
論文参考訳（メタデータ） (2024-03-30T02:55:49Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Towards the Unification of Generative and Discriminative Visual Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文参考訳（メタデータ） (2023-12-15T19:17:15Z)
Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。 VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。 FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文参考訳（メタデータ） (2023-10-09T14:57:05Z)
Graph Meets LLMs: Towards Large Graph Models [60.24970313736175]
本稿では,大規模グラフモデルの開発に伴う課題と機会について論じる。まず,大規模グラフモデルの所望の特性について考察する。次に、表現ベース、グラフデータ、グラフモデルという3つの重要な視点から詳細な議論を行う。
論文参考訳（メタデータ） (2023-08-28T12:17:51Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。