Fugu-MT 論文翻訳(概要): Mind the Gap: Evaluating Vision Systems in Small Data Applications

論文の概要: Mind the Gap: Evaluating Vision Systems in Small Data Applications

arxiv url: http://arxiv.org/abs/2504.06486v1
Date: Tue, 08 Apr 2025 23:19:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 21:51:56.363424
Title: Mind the Gap: Evaluating Vision Systems in Small Data Applications
Title（参考訳）: Mind the Gap: 小型データアプリケーションにおけるビジョンシステムの評価
Authors: Samuel Stevens, S M Rayeed, Jenna Kline,
Abstract要約: コンピュータビジョン研究は、ゼロショットと少数ショットの学習に注目する評価が増えているため、小さなデータ体制を無視していることを示す。マルチモーダルな大言語モデル(MLLM)と視覚のみの手法を、様々なトレーニングセットサイズで比較する。我々は、これらのアプローチの小規模データ文脈における最初の包括的比較を行い、実践的な展開による理論的進歩のブリッジを改善するために、AI研究における明らかな小規模データ評価を提唱する。
参考スコア（独自算出の注目度）: 0.13654846342364307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The practical application of AI tools for specific computer vision tasks relies on the "small-data regime" of hundreds to thousands of labeled samples. This small-data regime is vital for applications requiring expensive expert annotations, such as ecological monitoring, medical diagnostics or industrial quality control. We find, however, that computer vision research has ignored the small data regime as evaluations increasingly focus on zero- and few-shot learning. We use the Natural World Tasks (NeWT) benchmark to compare multi-modal large language models (MLLMs) and vision-only methods across varying training set sizes. MLLMs exhibit early performance plateaus, while vision-only methods improve throughout the small-data regime, with performance gaps widening beyond 10 training examples. We provide the first comprehensive comparison between these approaches in small-data contexts and advocate for explicit small-data evaluations in AI research to better bridge theoretical advances with practical deployments.
Abstract（参考訳）: 特定のコンピュータビジョンタスクに対するAIツールの実践的応用は、数百から数千のラベル付きサンプルの"小さなデータ体制"に依存している。この小さなデータ体制は、生態モニタリング、医療診断、産業品質管理など、高価な専門家のアノテーションを必要とするアプリケーションにとって不可欠である。しかし、コンピュータビジョンの研究は、ゼロショットと少数ショットの学習に注目する評価が増えているため、小さなデータ体制を無視している。我々はNatural World Tasks (NeWT) ベンチマークを用いて、マルチモーダルな大規模言語モデル(MLLM)と、様々なトレーニングセットサイズで視覚のみの手法を比較する。 MLLMは初期のパフォーマンス高原を示し、視覚のみの手法は小さなデータ体制を通して改善され、パフォーマンスのギャップは10のトレーニング例を超えている。我々は、これらのアプローチの小規模データ文脈における最初の包括的比較を行い、実践的な展開による理論的進歩のブリッジを改善するために、AI研究における明らかな小規模データ評価を提唱する。

関連論文リスト

InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models [59.7084864920244]
InternSpatialは視覚言語モデル(VLM)における空間推論のための最大のオープンソースデータセットである InternSpatialは、シングルビューとマルチビューの両方にまたがる1200万のQAペアで構成されている。 InternSpatial-Benchは、多様な命令形式で空間的理解を評価するために設計された評価ベンチマークである。
論文参考訳（メタデータ） (2025-06-23T08:17:22Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
Exploration of VLMs for Driver Monitoring Systems Applications [3.59361692183907]
近年,新たなディープラーニングモデル,特にLarge Language Models(LLM)とVision-Language Models(VLM)の進展が見られた。本稿では,ドライバモニタリングシステム(DMS)におけるVLMの実装について述べる。
論文参考訳（メタデータ） (2025-03-15T22:37:36Z)
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。 LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文参考訳（メタデータ） (2024-08-09T01:41:05Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。複数のタスクにまたがる異なる対面機構を実験的に評価する。異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文参考訳（メタデータ） (2024-03-20T10:57:17Z)
A Survey on Few-Shot Class-Incremental Learning [11.68962265057818]
FSCIL(Few-shot class-incremental Learning)は、ディープニューラルネットワークが新しいタスクを学習する上で重要な課題である。本稿では, FSCILに関する包括的調査を行う。 FSCILはコンピュータビジョンの様々な分野で大きな成果を上げている。
論文参考訳（メタデータ） (2023-04-17T10:15:08Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
A Survey of Learning on Small Data: Generalization, Optimization, and Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文参考訳（メタデータ） (2022-07-29T02:34:19Z)
Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文参考訳（メタデータ） (2022-06-06T04:59:44Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)
DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文参考訳（メタデータ） (2020-04-28T12:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。