論文の概要: Unifying (Machine) Vision via Counterfactual World Modeling
- arxiv url: http://arxiv.org/abs/2306.01828v1
- Date: Fri, 2 Jun 2023 17:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:50:09.543080
- Title: Unifying (Machine) Vision via Counterfactual World Modeling
- Title(参考訳): 対実世界モデリングによる統合(機械)ビジョン
- Authors: Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul
Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Yamins
- Abstract要約: 本稿では,視覚基盤モデルを構築するためのフレームワークであるCWMを紹介する。
CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念をビジョンに適用することを妨げる中核的な問題を解決している。
我々は,CWMが様々なタスクのために,現実世界の画像やビデオに対して高品質な読み出しを生成することを示す。
- 参考スコア(独自算出の注目度): 5.001446411351483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading approaches in machine vision employ different architectures for
different tasks, trained on costly task-specific labeled datasets. This
complexity has held back progress in areas, such as robotics, where robust
task-general perception remains a bottleneck. In contrast, "foundation models"
of natural language have shown how large pre-trained neural networks can
provide zero-shot solutions to a broad spectrum of apparently distinct tasks.
Here we introduce Counterfactual World Modeling (CWM), a framework for
constructing a visual foundation model: a unified, unsupervised network that
can be prompted to perform a wide variety of visual computations. CWM has two
key components, which resolve the core issues that have hindered application of
the foundation model concept to vision. The first is structured masking, a
generalization of masked prediction methods that encourages a prediction model
to capture the low-dimensional structure in visual data. The model thereby
factors the key physical components of a scene and exposes an interface to them
via small sets of visual tokens. This in turn enables CWM's second main idea --
counterfactual prompting -- the observation that many apparently distinct
visual representations can be computed, in a zero-shot manner, by comparing the
prediction model's output on real inputs versus slightly modified
("counterfactual") inputs. We show that CWM generates high-quality readouts on
real-world images and videos for a diversity of tasks, including estimation of
keypoints, optical flow, occlusions, object segments, and relative depth. Taken
together, our results show that CWM is a promising path to unifying the
manifold strands of machine vision in a conceptually simple foundation.
- Abstract(参考訳): 機械ビジョンにおける主要なアプローチは、異なるタスクのために異なるアーキテクチャを採用し、高価なタスク固有のラベル付きデータセットでトレーニングされる。
この複雑さは、ロバストなタスク全般の認識が依然としてボトルネックであるロボティクスのような分野における進歩を阻害している。
対照的に、自然言語の「基礎モデル」は、明らかに異なるタスクの幅広い範囲において、事前訓練されたニューラルネットワークがゼロショットのソリューションを提供することができることを示す。
本稿では,視覚基盤モデルを構築するためのフレームワークであるcwm(counterfactual world modeling)について紹介する。
CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念のビジョンへの応用を妨げる中核的な問題を解決している。
第一は構造化マスキング(structured masking)であり、視覚データの低次元構造を予測モデルが捉えることを奨励するマスク予測法の一般化である。
これにより、モデルはシーンの重要な物理的コンポーネントを判断し、小さなビジュアルトークンセットを通じてインターフェースを公開する。
これにより、CWMの第二のメインアイデアである「偽ファクトプロンシング」が実現され、実際の入力に対する予測モデルの出力とわずかに修正された「偽ファクトリアル」入力を比較することで、明らかに異なる視覚表現をゼロショットで計算することができる。
cwmは,キーポイントの推定,光学フロー,オクルージョン,オブジェクトセグメント,相対深度など,様々なタスクのために,実世界の画像やビデオで高品質な読み出しを生成する。
その結果,cwmは,概念的に単純な基盤で機械ビジョンの多様体鎖を統一するための有望な経路であることがわかった。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - CNN LEGO: Disassembling and Assembling Convolutional Neural Network [0.0]
人間の視覚知覚機構を模倣する畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョン領域で成功している。
上記の視覚認知機構に着想を得て,MDA-Task(MDA-Task)と呼ばれる新しいタスクについて検討する。
MDA-Taskは、ディープモデルを独立したパーツに分解し、LEGOのおもちゃをプレイするようなパフォーマンスコストを伴わずに、新しいディープモデルに組み立てることができる。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。