論文の概要: Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation
- arxiv url: http://arxiv.org/abs/2211.15402v1
- Date: Mon, 28 Nov 2022 15:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:39:57.697814
- Title: Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation
- Title(参考訳): 知覚、基礎、理性、行動:汎用視覚表現のためのベンチマーク
- Authors: Jiangyong Huang, William Yicheng Zhu, Baoxiong Jia, Zan Wang, Xiaojian
Ma, Qing Li, Siyuan Huang
- Abstract要約: 現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
- 参考スコア(独自算出の注目度): 26.039045505150526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current computer vision models, unlike the human visual system, cannot yet
achieve general-purpose visual understanding. Existing efforts to create a
general vision model are limited in the scope of assessed tasks and offer no
overarching framework to perform them holistically. We present a new
comprehensive benchmark, General-purpose Visual Understanding Evaluation
(G-VUE), covering the full spectrum of visual cognitive abilities with four
functional domains $\unicode{x2014}$ Perceive, Ground, Reason, and Act. The
four domains are embodied in 11 carefully curated tasks, from 3D reconstruction
to visual reasoning and manipulation. Along with the benchmark, we provide a
general encoder-decoder framework to allow for the evaluation of arbitrary
visual representation on all 11 tasks. We evaluate various pre-trained visual
representations with our framework and observe that (1) Transformer-based
visual backbone generally outperforms CNN-based backbone on G-VUE, (2) visual
representations from vision-language pre-training are superior to those with
vision-only pre-training across visual tasks. With G-VUE, we provide a holistic
evaluation standard to motivate research toward building general-purpose visual
systems via obtaining more general-purpose visual representations.
- Abstract(参考訳): 現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚理解をまだ達成できていない。
一般的なビジョンモデルを作成する既存の取り組みは、評価されたタスクの範囲に制限があり、それらを全体的に実行する包括的なフレームワークを提供していません。
我々は,4つの機能ドメインを持つ視覚認知能力の全スペクトルを包括的に網羅した,汎用視覚理解評価(General-purpose Visual Understanding Evaluation, G-VUE)を提案する。
4つのドメインは、3d再構成から視覚的推論や操作まで、11の注意深くキュレートされたタスクに具体化されている。
ベンチマークとともに、11タスクの任意の視覚表現を評価するための一般的なエンコーダ・デコーダフレームワークを提供する。
我々は,(1)トランスフォーマーベースの視覚バックボーンが,G-VUE上でCNNベースのバックボーンよりも優れており,(2)視覚言語による事前学習による視覚表現が視覚タスクを横断する視覚のみの事前学習よりも優れていることを確認する。
g-vueでは,より汎用的な視覚表現を得ることで,汎用視覚システム構築に向けた研究のモチベーションを高めるための総合的評価基準を提供する。
関連論文リスト
- Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making [19.09644604789813]
我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
論文 参考訳(メタデータ) (2023-12-07T18:13:42Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - GRIT: General Robust Image Task Benchmark [32.556726698322755]
本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。
GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。
ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
論文 参考訳(メタデータ) (2022-04-28T17:13:23Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。