論文の概要: GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods
- arxiv url: http://arxiv.org/abs/2301.01893v1
- Date: Thu, 5 Jan 2023 03:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:15:04.016568
- Title: GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods
- Title(参考訳): GIVL:事前学習による視覚言語モデルの地理的向上
- Authors: Da Yin, Feng Gao, Govind Thattai, Michael Johnston, Kai-Wei Chang
- Abstract要約: 我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 62.076647211744564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key goal for the advancement of AI is to develop technologies that serve
the needs not just of one group but of all communities regardless of their
geographical region. In fact, a significant proportion of knowledge is locally
shared by people from certain regions but may not apply equally in other
regions because of cultural differences. If a model is unaware of regional
characteristics, it may lead to performance disparity across regions and result
in bias against underrepresented groups. We propose GIVL, a Geographically
Inclusive Vision-and-Language Pre-trained model. There are two attributes of
geo-diverse visual concepts which can help to learn geo-diverse knowledge: 1)
concepts under similar categories have unique knowledge and visual
characteristics, 2) concepts with similar visual features may fall in
completely different categories. Motivated by the attributes, we design new
pre-training objectives Image Knowledge Matching (IKM) and Image Edit Checking
(IEC) to pre-train GIVL. Compared with similar-size models pre-trained with
similar scale of data, GIVL achieves state-of-the-art (SOTA) and more balanced
performance on geo-diverse V&L tasks.
- Abstract(参考訳): AIの発展の重要なゴールは、一つのグループだけでなく、地域に関係なくすべてのコミュニティのニーズを満たす技術を開発することである。
実際、知識のかなりの割合は、特定の地域の人々によってローカルに共有されているが、文化的差異のため、他の地域では等しく適用できない。
モデルが地域特性に気づいていない場合、地域間での性能格差が生じ、表現不足の集団に偏りが生じる可能性がある。
地理包括型視覚言語事前学習モデルgivlを提案する。
ジオディバースの知識を学ぶのに役立つジオディバースの視覚概念には2つの特性がある。
1)類似するカテゴリのコンセプトは、独特の知識と視覚特性を有する。
2) 類似した視覚特徴を持つ概念は, 全く異なるカテゴリに分類される。
これらの属性をベースとして,画像知識マッチング(IKM)と画像編集チェック(IEC)を事前学習用GIVLに設計する。
同様のデータスケールで事前トレーニングされた類似サイズのモデルと比較して、givlは最先端(sota)とよりバランスのとれたジオディバースv&lタスクのパフォーマンスを実現している。
関連論文リスト
- Incorporating Geo-Diverse Knowledge into Prompting for Increased
Geographical Robustness in Object Recognition [26.984695519402557]
対象カテゴリの地理固有の記述的知識は、堅牢性を高めるために活用できることを示す。
そこで本稿では,ソフトプロンプトが未確認対象の地理集合に一般化することを保証するために,地理知識の正規化手法を提案する。
ヨーロッパからのデータでのみ訓練されたモデルから一般化したDolarStreetは、アフリカからの国では+2.8、最も厳しいクラスでは+4.6である。
論文 参考訳(メタデータ) (2024-01-03T01:11:16Z) - Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - Knowledge Transfer Based Fine-grained Visual Classification [19.233180617535492]
細かい粒度の視覚分類(FGVC)は、同じカテゴリのサブクラスを区別することを目的とする。
その重要な解決策は、微妙で差別的な領域を採掘することです。
クロスエントロピー損失(CE損失)を損失関数として用いたCNNでは,性能が低かった。
論文 参考訳(メタデータ) (2020-12-21T14:41:08Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Adversarial Graph Representation Adaptation for Cross-Domain Facial
Expression Recognition [86.25926461936412]
本稿では,グラフ表現の伝播と逆学習を両立させる新しいAdrialversa Graph Representation Adaptation (AGRA) フレームワークを提案する。
提案するAGRAフレームワークは,従来の最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-08-03T13:27:24Z) - Meta-Learning for Few-Shot Land Cover Classification [3.8529010979482123]
分類タスクとセグメンテーションタスクにおけるモデル非依存メタラーニング(MAML)アルゴリズムの評価を行った。
数発のモデル適応は,正規勾配降下による事前学習よりも優れていた。
これは、メタラーニングによるモデル最適化が地球科学におけるタスクの恩恵をもたらすことを示唆している。
論文 参考訳(メタデータ) (2020-04-28T09:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。