論文の概要: Do Vision Models Develop Human-Like Progressive Difficulty Understanding?
- arxiv url: http://arxiv.org/abs/2503.13058v1
- Date: Mon, 17 Mar 2025 11:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:22.186699
- Title: Do Vision Models Develop Human-Like Progressive Difficulty Understanding?
- Title(参考訳): 視覚モデルは人間のような進歩的難易度を発達させるか?
- Authors: Zeyi Huang, Utkarsh Ojha, Yuyang Ji, Donghyun Lee, Yong Jae Lee,
- Abstract要約: 我々は,これらのモデルがそのパターンに従うかどうかを,画像分類と研究の課題として検討する。
我々はGREに似た適応テストを作成し、現在の画像のラウンドにおけるモデルの性能が次のラウンドでテスト画像を決定する。
- 参考スコア(独自算出の注目度): 36.26670735884902
- License:
- Abstract: When a human undertakes a test, their responses likely follow a pattern: if they answered an easy question $(2 \times 3)$ incorrectly, they would likely answer a more difficult one $(2 \times 3 \times 4)$ incorrectly; and if they answered a difficult question correctly, they would likely answer the easy one correctly. Anything else hints at memorization. Do current visual recognition models exhibit a similarly structured learning capacity? In this work, we consider the task of image classification and study if those models' responses follow that pattern. Since real images aren't labeled with difficulty, we first create a dataset of 100 categories, 10 attributes, and 3 difficulty levels using recent generative models: for each category (e.g., dog) and attribute (e.g., occlusion), we generate images of increasing difficulty (e.g., a dog without occlusion, a dog only partly visible). We find that most of the models do in fact behave similarly to the aforementioned pattern around 80-90% of the time. Using this property, we then explore a new way to evaluate those models. Instead of testing the model on every possible test image, we create an adaptive test akin to GRE, in which the model's performance on the current round of images determines the test images in the next round. This allows the model to skip over questions too easy/hard for itself, and helps us get its overall performance in fewer steps.
- Abstract(参考訳): 簡単な質問に(2 \times 3)$不正確に答えると、もっと難しい質問に(2 \times 3 \times 4)$不正確に答えることになり、難しい質問に正しく答えるなら、簡単な質問に正しく答える可能性が高い。
それ以外は暗記を暗示する。
現在の視覚認識モデルは、同様に構造化された学習能力を示すか?
本研究は,画像分類の課題について考察し,そのパターンに従えばよいか検討する。
実際の画像は難易度でラベル付けされていないため、まず、最近の生成モデルを用いて、100のカテゴリ、10の属性、3の難易度をデータセットを作成する: それぞれのカテゴリ(例えば、犬)と属性(例えば、隠蔽)について、困難度が増大する画像を生成する(例えば、隠蔽のない犬、一部しか見えない犬)。
ほとんどのモデルが、前述のパターンと同じように、80~90%の時間で動作していることが分かりました。
この特性を用いて、これらのモデルを評価する新しい方法を模索する。
可能なすべてのテスト画像上でモデルをテストするのではなく、GREに似た適応テストを作成し、現在の画像のラウンドにおけるモデルのパフォーマンスが次のラウンドでテスト画像を決定する。
これにより、モデルが質問をスキップするのも簡単でハードな作業であり、全体的なパフォーマンスを少ないステップで得るのに役立ちます。
関連論文リスト
- s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。
テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文 参考訳(メタデータ) (2025-01-31T18:48:08Z) - Measuring short-form factuality in large language models [50.15055025275888]
本稿では,言語モデルが短い事実探索質問に答える能力を評価するベンチマークであるSimpleQAを提案する。
SimpleQAはGPT-4応答に対して逆向きに収集される。
SimpleQAの各回答は、正しいか、間違っているか、試みられていないかのどちらかとしてランク付けされる。
論文 参考訳(メタデータ) (2024-11-07T01:58:42Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - How good are deep models in understanding the generated images? [47.64219291655723]
オブジェクト認識と視覚的質問応答タスクのために、生成画像の2つのセットを収集する。
オブジェクト認識では、10の最先端オブジェクト認識モデルのうち最高のモデルが、約60%と80%のトップ-1とトップ5の精度を達成する。
VQAでは、50の画像で241のバイナリ質問に回答すると77.3%のスコアが与えられる。
論文 参考訳(メタデータ) (2022-08-23T06:44:43Z) - Trivial or impossible -- dichotomous data difficulty masks model
differences (on ImageNet and beyond) [10.945724828039229]
私たちは、モデルがどのように決定するかを決定する様々な側面を切り離そうとしています。
ネットワークアーキテクチャや目的に関係なく、すべてのモデルが同様の決定境界に達することに気付きます。
人間はどの画像がCNNにとって「簡単」で「不可能」であるかを予測するのに非常に正確である。
論文 参考訳(メタデータ) (2021-10-12T12:09:59Z) - LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering [4.602329567377897]
本稿では,視覚的質問応答のための透明なニューラルシンボリック推論フレームワークを提案する。
人間のようにステップバイステップで解決し、各ステップで人間の読みやすい正当性を提供する。
GQAデータセットを用いた実験により、LRTAは最先端モデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T06:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。