論文の概要: Probing the Mid-level Vision Capabilities of Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2411.17474v1
- Date: Mon, 25 Nov 2024 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:48.726312
- Title: Probing the Mid-level Vision Capabilities of Self-Supervised Learning
- Title(参考訳): 自己指導型学習における中級視覚能力の探索
- Authors: Xuweiyi Chen, Markus Marks, Zezhou Cheng,
- Abstract要約: 自己教師付き学習アプローチは、主にハイレベルな認識タスクのために設計され、評価される。
私たちの研究はSSLモデルが学んだことの全体像とタイムリーなビューを提供し、主にハイレベルなビジョンタスクに焦点を当てた既存の研究を補完します。
- 参考スコア(独自算出の注目度): 6.9727497501116025
- License:
- Abstract: Mid-level vision capabilities - such as generic object localization and 3D geometric understanding - are not only fundamental to human vision but are also crucial for many real-world applications of computer vision. These abilities emerge with minimal supervision during the early stages of human visual development. Despite their significance, current self-supervised learning (SSL) approaches are primarily designed and evaluated for high-level recognition tasks, leaving their mid-level vision capabilities largely unexamined. In this study, we introduce a suite of benchmark protocols to systematically assess mid-level vision capabilities and present a comprehensive, controlled evaluation of 22 prominent SSL models across 8 mid-level vision tasks. Our experiments reveal a weak correlation between mid-level and high-level task performance. We also identify several SSL methods with highly imbalanced performance across mid-level and high-level capabilities, as well as some that excel in both. Additionally, we investigate key factors contributing to mid-level vision performance, such as pretraining objectives and network architectures. Our study provides a holistic and timely view of what SSL models have learned, complementing existing research that primarily focuses on high-level vision tasks. We hope our findings guide future SSL research to benchmark models not only on high-level vision tasks but on mid-level as well.
- Abstract(参考訳): 汎用オブジェクトローカライゼーションや3次元幾何学的理解といった中レベルの視覚能力は、人間の視覚の基本であるだけでなく、コンピュータビジョンの現実的な応用にも不可欠である。
これらの能力は、人間の視覚発達の初期段階において、最小限の監督下で出現する。
その重要性にもかかわらず、現在の自己教師付き学習(SSL)アプローチは、主にハイレベルな認識タスクのために設計され、評価され、中級レベルの視覚能力はほとんど検討されていない。
本研究では,中級視覚能力の体系的評価と,中級視覚機能における22種類の著名なSSLモデルの包括的,制御された評価を行うためのベンチマークプロトコルについて紹介する。
実験の結果,中間レベルと高レベルタスク性能の相関が弱いことがわかった。
また、中間レベルと高レベルの機能で高いバランスの取れないパフォーマンスを持つSSLメソッドや、その両方で優れているものもいくつか特定しています。
さらに,事前学習やネットワークアーキテクチャなど,中程度の視力向上に寄与する重要な要因についても検討する。
私たちの研究はSSLモデルが学んだことの全体像とタイムリーなビューを提供し、主にハイレベルなビジョンタスクに焦点を当てた既存の研究を補完します。
われわれの発見は、SSLの将来の研究をガイドして、ハイレベルなビジョンタスクだけでなく、ミドルレベルのモデルもベンチマークすることを願っている。
関連論文リスト
- BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Self-Supervised Skeleton-Based Action Representation Learning: A Benchmark and Beyond [19.074841631219233]
自己教師付き学習(SSL)は骨格に基づく行動理解に有効であることが証明されている。
本稿では,自己教師型骨格に基づく行動表現学習に関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-06-05T06:21:54Z) - Vision Superalignment: Weak-to-Strong Generalization for Vision
Foundation Models [55.919653720979824]
本稿では、より弱いモデルを用いてより強いモデルを監督する弱強一般化の概念に焦点を当てる。
弱強監督のための新規かつ適応的に調整可能な損失関数を提案する。
提案手法は, 強い一般化によって設定された性能ベンチマークを超えるだけでなく, データセット全体を用いた微調整の強いモデルの結果を上回る。
論文 参考訳(メタデータ) (2024-02-06T06:30:34Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。