論文の概要: Low-Resource Vision Challenges for Foundation Models
- arxiv url: http://arxiv.org/abs/2401.04716v2
- Date: Wed, 10 Jan 2024 11:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 11:50:50.707639
- Title: Low-Resource Vision Challenges for Foundation Models
- Title(参考訳): ファンデーションモデルの低リソースビジョンチャレンジ
- Authors: Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek
- Abstract要約: 低リソース問題はコンピュータビジョンでは未発見である。
まず、真に低解像度の画像データのベンチマークを収集する。
これらの低リソース設定はすべて、データの不足、きめ細かい違い、そして自然画像から特殊なドメインへの分散シフトの3つの課題を共有している。
- 参考スコア(独自算出の注目度): 54.23533023883659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource settings are well-established in natural language processing,
where many languages lack sufficient data for machine learning at scale.
However, low-resource problems are under-explored in computer vision. In this
paper, we strive to address this gap and explore the challenges of low-resource
image tasks with vision foundation models. Thus, we first collect a benchmark
of genuinely low-resource image data, covering historic maps, circuit diagrams,
and mechanical drawings. These low-resource settings all share the three
challenges of data scarcity, fine-grained differences, and the distribution
shift from natural images to the specialized domain of interest. While existing
foundation models have shown impressive generalizability, we find they cannot
transfer well to our low-resource tasks. To begin to tackle the challenges of
low-resource vision, we introduce one simple baseline per challenge.
Specifically, we propose to i) enlarge the data space by generative models, ii)
adopt the best sub-kernels to encode local regions for fine-grained difference
discovery and iii) learn attention for specialized domains. Experiments on the
three low-resource data sources in our benchmark demonstrate our proposals
already provide a better baseline than common transfer learning, data
augmentation, and fine-grained methods. This highlights the unique
characteristics and challenges of low-resource vision for foundation models
that warrant further investigation. Project website:
https://xiaobai1217.github.io/Low-Resource-Vision/.
- Abstract(参考訳): 低リソース設定は、多くの言語が大規模な機械学習に十分なデータを持っていない自然言語処理において十分に確立されている。
しかし、低リソース問題はコンピュータビジョンでは未解決である。
本稿では,このギャップに対処し,視覚基盤モデルを用いた低リソース画像タスクの課題を探究する。
そこで,我々はまず,歴史地図,回路図,メカニカル描画を網羅した,真の低リソース画像データのベンチマークを収集する。
これらの低リソース設定はすべて、データの不足、細かな違い、自然画像から専門分野への分散という3つの課題を共有している。
既存の基盤モデルは目覚ましい一般化性を示しているが、低リソースのタスクにうまく移行することはできない。
低リソースビジョンの課題に取り組むために,1つの単純なベースラインを1つ導入する。
具体的には
一 生成モデルによりデータ空間を拡大すること。
二 微粒な差分発見のために、地域を符号化する最適なサブカーネルを採用すること。
三 専門分野について留意すること。
ベンチマークで低リソースの3つのデータソースに関する実験では、私たちの提案はすでに一般的な転送学習やデータ拡張、きめ細かいメソッドよりも優れたベースラインを提供しています。
これは、さらなる調査を保証している基礎モデルの低リソースビジョンの特徴と課題を強調している。
プロジェクトサイト:https://xiaobai1217.github.io/Low-Resource-Vision/。
関連論文リスト
- Retrieval-enriched zero-shot image classification in low-resource domains [23.529317590033845]
低リソースドメインは、言語および視覚的理解タスクにおいて重要な課題を提示する。
VLM(Vision-Language Models)の最近の進歩は、高リソース領域において有望な結果を示しているが、低リソースの概念では不足している。
新たな視点から,ゼロショット低解像度画像分類の課題に取り組む。
論文 参考訳(メタデータ) (2024-11-01T19:24:55Z) - High-Precision Self-Supervised Monocular Depth Estimation with Rich-Resource Prior [56.90548525055657]
本稿では,推測フェーズにおいて単一入力画像のみを必要とするRich-Resource Prior Depth estimator (RPrDepth)を提案する。
我々は、リッチリソースデータを事前情報として扱い、オフラインで参照機能として特徴を抽出する。
単一画像の深度を推定すると、リッチリソースの特徴から類似したピクセルを検索し、それらを事前情報として使用して深度を推定する。
論文 参考訳(メタデータ) (2024-08-01T08:03:13Z) - Equity through Access: A Case for Small-scale Deep Learning [6.474195280156721]
大規模資源は、計算、データ、エネルギー、炭素排出量の点で資源集約的な、徐々に大きなモデルを訓練するために使われてきた。
これらのコストは、そのような規模のリソースへのアクセスが限られている研究者や実践者にとって、新たなタイプの参入障壁になりつつある。
本稿では,既存の視覚タスク用DLモデルの展望を包括的に見て,リソースが制限されている環境での有用性を実証する。
論文 参考訳(メタデータ) (2024-03-19T09:17:18Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Local Distortion Aware Efficient Transformer Adaptation for Image
Quality Assessment [62.074473976962835]
局所歪み特性を適切に注入することにより、IQAタスクにおいて、より大きな事前訓練および固定された基礎モデルがより優れた性能を発揮することを示す。
具体的には、局所歪み構造と視覚変換器(ViT)の誘導バイアスの欠如に対して、別の事前学習畳み込みニューラルネットワーク(CNN)を用いる。
本研究では, 予め訓練したCNNから局所歪み特徴を得るための局所歪み抽出器と, 局所歪み特徴をViTに注入する局所歪み注入器を提案する。
論文 参考訳(メタデータ) (2023-08-23T08:41:21Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z) - BERT memorisation and pitfalls in low-resource scenarios [35.780321385414005]
最先端の事前訓練モデルは、事実を記憶し、限られたトレーニングデータでうまく機能することが示されている。
我々は,ノイズおよび低リソースシナリオにおける一般化と記憶能力について検討する。
これらのモデルのトレーニングはラベルノイズにほとんど影響されず、非常に騒々しいデータセットでもほぼ最適のパフォーマンスに達することができることがわかります。
論文 参考訳(メタデータ) (2021-04-16T18:53:19Z) - Unravelling Small Sample Size Problems in the Deep Learning World [69.82853912238173]
筆者らはまず,アルゴリズムが動作空間に応じて分離される小さなサンプルサイズ問題に対するディープラーニングアルゴリズムのレビューを行う。
第2に,特徴マップの最も識別性の高い部分からグローバル情報を抽出することに焦点を当てた動的注意プーリング手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T13:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。