論文の概要: Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2109.06860v1
- Date: Tue, 14 Sep 2021 17:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 16:17:08.128833
- Title: Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning
- Title(参考訳): Broaden the Vision: Geo-diverse Visual Commonsense Reasoning
- Authors: Da Yin, Liunian Harold Li, Ziniu Hu, Nanyun Peng, Kai-Wei Chang
- Abstract要約: 地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
- 参考スコア(独自算出の注目度): 49.04866469947569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense is defined as the knowledge that is shared by everyone. However,
certain types of commonsense knowledge are correlated with culture and
geographic locations and they are only shared locally. For example, the
scenarios of wedding ceremonies vary across regions due to different customs
influenced by historical and religious factors. Such regional characteristics,
however, are generally omitted in prior work. In this paper, we construct a
Geo-Diverse Visual Commonsense Reasoning dataset (GD-VCR) to test
vision-and-language models' ability to understand cultural and
geo-location-specific commonsense. In particular, we study two state-of-the-art
Vision-and-Language models, VisualBERT and ViLBERT trained on VCR, a standard
multimodal commonsense benchmark with images primarily from Western regions. We
then evaluate how well the trained models can generalize to answering the
questions in GD-VCR. We find that the performance of both models for
non-Western regions including East Asia, South Asia, and Africa is
significantly lower than that for Western region. We analyze the reasons behind
the performance disparity and find that the performance gap is larger on QA
pairs that: 1) are concerned with culture-related scenarios, e.g., weddings,
religious activities, and festivals; 2) require high-level geo-diverse
commonsense reasoning rather than low-order perception and recognition. Dataset
and code are released at https://github.com/WadeYin9712/GD-VCR.
- Abstract(参考訳): Commonsenseは、すべての人が共有する知識として定義される。
しかし、ある種の常識知識は文化や地理的な場所と関連付けられ、ローカルでのみ共有される。
例えば、結婚式のシナリオは、歴史的・宗教的な要素の影響を受け、地域によって異なる。
しかし、こうした地域的特徴は概して先行研究では省略されている。
本稿では,視覚・言語モデルによる文化的・地理的コモンセンス理解能力をテストするために,GD-VCR(Geo-Diverse Visual Commonsense Reasoning dataset)を構築した。
特に、VCRで訓練されたVisualBERTとViLBERTの2つの最先端ビジョン・アンド・ランゲージモデルについて検討した。
次に,gd-vcrの解答に対して,訓練モデルがいかに一般化できるかを評価する。
その結果,東アジア,南アジア,アフリカを含む非西部地域における両モデルの性能は,西部地域に比べて有意に低いことがわかった。
パフォーマンス格差の背景にある理由を分析し、パフォーマンスギャップがQAペアよりも大きいことを確認します。
1) 結婚式,宗教活動,祭事等,文化に関するシナリオに係わる。
2)低次の認識や認識よりも,高レベルなジオディバースコモンセンス推論が必要である。
データセットとコードはhttps://github.com/wadeyin9712/gd-vcrでリリースされる。
関連論文リスト
- Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces [28.21857463550941]
本稿では,言語モデル推論能力に対する地理的要因の影響を理解することを目的としたIndoCultureを紹介する。
地元住民には、事前に定義されたトピックのセットを通じて、文化的コンテキストと妥当な選択肢を手作業で開発するように求めます。
オープンウェイトLlama-3はGPT-4と競合するが、他のオープンウェイトモデルは50%以下で苦戦している。
論文 参考訳(メタデータ) (2024-04-02T11:32:58Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization? [9.906591021385303]
ImageNet-A、-C、-Rのようなイメージネットベースの一般化ベンチマークでは、10年以上オブジェクト認識の進歩が測定されている。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
本研究では,世界各国の家庭から得られた2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理横断の一般化について検討する。
論文 参考訳(メタデータ) (2023-07-24T21:29:48Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Investigating Cultural Aspects in the Fundamental Diagram using
Convolutional Neural Networks and Simulation [0.0]
本稿では,ブラジルとドイツにおける文化(個人空間)における重要な属性の違いに着目した。
我々は、CNNを用いて、ビデオシーケンス中の人を検出し、追跡し、Voronoi Diagramsを使って、人の隣り合う関係を見つけます。
個人空間の分析から,人口密度が高く,低密度・中密度の個体群では,行動がより類似していることが判明した。
論文 参考訳(メタデータ) (2020-09-30T14:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。