論文の概要: GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods
- arxiv url: http://arxiv.org/abs/2301.01893v1
- Date: Thu, 5 Jan 2023 03:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:15:04.016568
- Title: GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods
- Title(参考訳): GIVL:事前学習による視覚言語モデルの地理的向上
- Authors: Da Yin, Feng Gao, Govind Thattai, Michael Johnston, Kai-Wei Chang
- Abstract要約: 我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 62.076647211744564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key goal for the advancement of AI is to develop technologies that serve
the needs not just of one group but of all communities regardless of their
geographical region. In fact, a significant proportion of knowledge is locally
shared by people from certain regions but may not apply equally in other
regions because of cultural differences. If a model is unaware of regional
characteristics, it may lead to performance disparity across regions and result
in bias against underrepresented groups. We propose GIVL, a Geographically
Inclusive Vision-and-Language Pre-trained model. There are two attributes of
geo-diverse visual concepts which can help to learn geo-diverse knowledge: 1)
concepts under similar categories have unique knowledge and visual
characteristics, 2) concepts with similar visual features may fall in
completely different categories. Motivated by the attributes, we design new
pre-training objectives Image Knowledge Matching (IKM) and Image Edit Checking
(IEC) to pre-train GIVL. Compared with similar-size models pre-trained with
similar scale of data, GIVL achieves state-of-the-art (SOTA) and more balanced
performance on geo-diverse V&L tasks.
- Abstract(参考訳): AIの発展の重要なゴールは、一つのグループだけでなく、地域に関係なくすべてのコミュニティのニーズを満たす技術を開発することである。
実際、知識のかなりの割合は、特定の地域の人々によってローカルに共有されているが、文化的差異のため、他の地域では等しく適用できない。
モデルが地域特性に気づいていない場合、地域間での性能格差が生じ、表現不足の集団に偏りが生じる可能性がある。
地理包括型視覚言語事前学習モデルgivlを提案する。
ジオディバースの知識を学ぶのに役立つジオディバースの視覚概念には2つの特性がある。
1)類似するカテゴリのコンセプトは、独特の知識と視覚特性を有する。
2) 類似した視覚特徴を持つ概念は, 全く異なるカテゴリに分類される。
これらの属性をベースとして,画像知識マッチング(IKM)と画像編集チェック(IEC)を事前学習用GIVLに設計する。
同様のデータスケールで事前トレーニングされた類似サイズのモデルと比較して、givlは最先端(sota)とよりバランスのとれたジオディバースv&lタスクのパフォーマンスを実現している。
関連論文リスト
- `Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning [47.1040786932317]
一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。
属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。
学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。
論文 参考訳(メタデータ) (2024-04-12T18:37:00Z) - Measuring Geographic Diversity of Foundation Models with a Natural Language--based Geo-guessing Experiment on GPT-4 [5.534517268996598]
我々は,その地理的多様性を研究するために,多モーダル大言語モデルファミリーの最先端の代表である GPT-4 について検討した。
自然言語によるジオゲスティング実験では,DBpedia の抽象表現を基礎構造コーパスとして用いて,GPT-4 が現在,いくつかの地理的特徴型について不十分な知識をコード化している可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-11T09:59:21Z) - Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition [24.701574433327746]
地理に基づくオブジェクト知識のための大規模言語モデルを提案することの実現可能性について検討する。
我々は,地理的知識の正規化を提案し,ソースセットで訓練されたソフトプロンプトが未知のターゲットセットに一般化されることを保証する。
DollarStreetのベースラインの推進による精度の向上は、アフリカ/アジア/アメリカからのターゲットデータで+2.8/1.2/1.6、最も厳しいクラスでは+4.6である。
論文 参考訳(メタデータ) (2024-01-03T01:11:16Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Adversarial Graph Representation Adaptation for Cross-Domain Facial
Expression Recognition [86.25926461936412]
本稿では,グラフ表現の伝播と逆学習を両立させる新しいAdrialversa Graph Representation Adaptation (AGRA) フレームワークを提案する。
提案するAGRAフレームワークは,従来の最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-08-03T13:27:24Z) - Meta-Learning for Few-Shot Land Cover Classification [3.8529010979482123]
分類タスクとセグメンテーションタスクにおけるモデル非依存メタラーニング(MAML)アルゴリズムの評価を行った。
数発のモデル適応は,正規勾配降下による事前学習よりも優れていた。
これは、メタラーニングによるモデル最適化が地球科学におけるタスクの恩恵をもたらすことを示唆している。
論文 参考訳(メタデータ) (2020-04-28T09:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。