論文の概要: Low-Resource Vision Challenges for Foundation Models
- arxiv url: http://arxiv.org/abs/2401.04716v2
- Date: Wed, 10 Jan 2024 11:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 11:50:50.707639
- Title: Low-Resource Vision Challenges for Foundation Models
- Title(参考訳): ファンデーションモデルの低リソースビジョンチャレンジ
- Authors: Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek
- Abstract要約: 低リソース問題はコンピュータビジョンでは未発見である。
まず、真に低解像度の画像データのベンチマークを収集する。
これらの低リソース設定はすべて、データの不足、きめ細かい違い、そして自然画像から特殊なドメインへの分散シフトの3つの課題を共有している。
- 参考スコア(独自算出の注目度): 54.23533023883659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource settings are well-established in natural language processing,
where many languages lack sufficient data for machine learning at scale.
However, low-resource problems are under-explored in computer vision. In this
paper, we strive to address this gap and explore the challenges of low-resource
image tasks with vision foundation models. Thus, we first collect a benchmark
of genuinely low-resource image data, covering historic maps, circuit diagrams,
and mechanical drawings. These low-resource settings all share the three
challenges of data scarcity, fine-grained differences, and the distribution
shift from natural images to the specialized domain of interest. While existing
foundation models have shown impressive generalizability, we find they cannot
transfer well to our low-resource tasks. To begin to tackle the challenges of
low-resource vision, we introduce one simple baseline per challenge.
Specifically, we propose to i) enlarge the data space by generative models, ii)
adopt the best sub-kernels to encode local regions for fine-grained difference
discovery and iii) learn attention for specialized domains. Experiments on the
three low-resource data sources in our benchmark demonstrate our proposals
already provide a better baseline than common transfer learning, data
augmentation, and fine-grained methods. This highlights the unique
characteristics and challenges of low-resource vision for foundation models
that warrant further investigation. Project website:
https://xiaobai1217.github.io/Low-Resource-Vision/.
- Abstract(参考訳): 低リソース設定は、多くの言語が大規模な機械学習に十分なデータを持っていない自然言語処理において十分に確立されている。
しかし、低リソース問題はコンピュータビジョンでは未解決である。
本稿では,このギャップに対処し,視覚基盤モデルを用いた低リソース画像タスクの課題を探究する。
そこで,我々はまず,歴史地図,回路図,メカニカル描画を網羅した,真の低リソース画像データのベンチマークを収集する。
これらの低リソース設定はすべて、データの不足、細かな違い、自然画像から専門分野への分散という3つの課題を共有している。
既存の基盤モデルは目覚ましい一般化性を示しているが、低リソースのタスクにうまく移行することはできない。
低リソースビジョンの課題に取り組むために,1つの単純なベースラインを1つ導入する。
具体的には
一 生成モデルによりデータ空間を拡大すること。
二 微粒な差分発見のために、地域を符号化する最適なサブカーネルを採用すること。
三 専門分野について留意すること。
ベンチマークで低リソースの3つのデータソースに関する実験では、私たちの提案はすでに一般的な転送学習やデータ拡張、きめ細かいメソッドよりも優れたベースラインを提供しています。
これは、さらなる調査を保証している基礎モデルの低リソースビジョンの特徴と課題を強調している。
プロジェクトサイト:https://xiaobai1217.github.io/Low-Resource-Vision/。
関連論文リスト
- Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - High-Resource Methodological Bias in Low-Resource Investigations [27.419604203739052]
我々は、高リソース言語からのダウンサンプリングの結果、低リソースのデータセットとは異なる特性のデータセットが得られることを示した。
結論として,データセットの簡易サンプリングは,これらのシステムが低リソースシナリオでどのように動作するかというバイアスのかかる見方をもたらす。
論文 参考訳(メタデータ) (2022-11-14T17:04:38Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [60.67550275379953]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z) - BERT memorisation and pitfalls in low-resource scenarios [35.780321385414005]
最先端の事前訓練モデルは、事実を記憶し、限られたトレーニングデータでうまく機能することが示されている。
我々は,ノイズおよび低リソースシナリオにおける一般化と記憶能力について検討する。
これらのモデルのトレーニングはラベルノイズにほとんど影響されず、非常に騒々しいデータセットでもほぼ最適のパフォーマンスに達することができることがわかります。
論文 参考訳(メタデータ) (2021-04-16T18:53:19Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - A Survey on Recent Approaches for Natural Language Processing in
Low-Resource Scenarios [30.391291221959545]
ディープニューラルネットワークと巨大な言語モデルが、自然言語アプリケーションにおいて一様化しつつある。
大量のトレーニングデータを必要とすることで知られているため、低リソース環境でのパフォーマンスを改善するための作業が増えている。
ニューラルモデルに対する最近の根本的な変化と、一般的なプレトレインおよびファインチューンパラダイムにより、低リソースの自然言語処理に対する有望なアプローチを調査した。
論文 参考訳(メタデータ) (2020-10-23T11:22:01Z) - Unravelling Small Sample Size Problems in the Deep Learning World [69.82853912238173]
筆者らはまず,アルゴリズムが動作空間に応じて分離される小さなサンプルサイズ問題に対するディープラーニングアルゴリズムのレビューを行う。
第2に,特徴マップの最も識別性の高い部分からグローバル情報を抽出することに焦点を当てた動的注意プーリング手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T13:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。