論文の概要: GRIT: General Robust Image Task Benchmark
- arxiv url: http://arxiv.org/abs/2204.13653v1
- Date: Thu, 28 Apr 2022 17:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:49:09.507925
- Title: GRIT: General Robust Image Task Benchmark
- Title(参考訳): GRIT: 一般的なロバストイメージタスクベンチマーク
- Authors: Tanmay Gupta, Ryan Marten, Aniruddha Kembhavi, Derek Hoiem
- Abstract要約: 本稿では,GRIT(General Robust Image Task)ベンチマークを紹介する。
GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。
ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一プラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
- 参考スコア(独自算出の注目度): 32.556726698322755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision models excel at making predictions when the test distribution
closely resembles the training distribution. Such models have yet to match the
ability of biological vision to learn from multiple sources and generalize to
new data sources and tasks. To facilitate the development and evaluation of
more general vision systems, we introduce the General Robust Image Task (GRIT)
benchmark. GRIT evaluates the performance, robustness, and calibration of a
vision system across a variety of image prediction tasks, concepts, and data
sources. The seven tasks in GRIT are selected to cover a range of visual
skills: object categorization, object localization, referring expression
grounding, visual question answering, segmentation, human keypoint detection,
and surface normal estimation. GRIT is carefully designed to enable the
evaluation of robustness under image perturbations, image source distribution
shift, and concept distribution shift. By providing a unified platform for
thorough assessment of skills and concepts learned by a vision model, we hope
GRIT catalyzes the development of performant and robust general purpose vision
systems.
- Abstract(参考訳): コンピュータビジョンモデルは、テスト分布がトレーニング分布によく似ている場合の予測に優れている。
このようなモデルは、複数のソースから学習し、新しいデータソースやタスクに一般化する生物学的ビジョンの能力にまだ一致していない。
より一般的な視覚システムの開発と評価を容易にするため,GRIT(General Robust Image Task)ベンチマークを導入する。
GRITは、様々な画像予測タスク、概念、データソースにわたるビジョンシステムの性能、堅牢性、キャリブレーションを評価する。
GRITの7つのタスクは、オブジェクトの分類、オブジェクトのローカライゼーション、表現接地参照、視覚的質問応答、セグメンテーション、人間のキーポイント検出、表面正規化など、様々な視覚的スキルをカバーするために選択される。
GRITは、画像摂動下でのロバスト性の評価、画像ソース分布シフト、概念分布シフトを可能にするために慎重に設計されている。
ビジョンモデルによって学習されたスキルや概念を徹底的に評価するための統一的なプラットフォームを提供することにより、GRITが高性能で堅牢な汎用的なビジョンシステムの開発を促進することを期待する。
関連論文リスト
- VisGraphVar: A Benchmark Generator for Assessing Variability in Graph Analysis Using Large Vision-Language Models [1.597617022056624]
LVLM(Large Vision-Language Models)は、抽象的な視覚タスクに取り組む能力がますます高まっている。
VisGraphVarは7つのタスクカテゴリのグラフ画像を生成することができる、カスタマイズ可能なベンチマークジェネレータである。
画像の視覚特性の変化(例えばノードのラベル付けやレイアウト)と視覚的不完全さの意図的な含意がモデルの性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2024-11-22T10:10:53Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning [27.304282924423095]
一般化可能ビジュアル強化学習(PIE-G)のための事前学習画像を提案する。
PIE-Gは、目に見えない視覚シナリオをゼロショットで一般化できる、シンプルで効果的なフレームワークである。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示唆している。
論文 参考訳(メタデータ) (2022-12-17T12:45:08Z) - Perceive, Ground, Reason, and Act: A Benchmark for General-purpose
Visual Representation [26.039045505150526]
現在のコンピュータビジョンモデルは、人間の視覚システムとは異なり、汎用的な視覚的理解がまだ得られていない。
視覚認知能力の全スペクトルを網羅する総合的視覚理解評価(General Visual Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2022-11-28T15:06:07Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Fairness Indicators for Systematic Assessments of Visual Feature
Extractors [21.141633753573764]
視覚系の害やバイアスの定量化を目的とした3つの公正度指標を提案する。
我々の指標は、フェアネス評価のために収集された既存の公開データセットを使用する。
これらの指標は、新しいコンピュータビジョン技術による幅広い影響の徹底的な分析の代替にはならない。
論文 参考訳(メタデータ) (2022-02-15T17:45:33Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。