論文の概要: Turath-150K: Image Database of Arab Heritage
- arxiv url: http://arxiv.org/abs/2201.00220v1
- Date: Sat, 1 Jan 2022 17:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 00:11:06.769734
- Title: Turath-150K: Image Database of Arab Heritage
- Title(参考訳): Turath-150K: Image Database of Arab Heritage
- Authors: Dani Kiyasseh, Rasheed El-Bouri
- Abstract要約: Turath-150Kは、一般的に見られる物体、活動、シナリオを反映したアラブ世界の画像のデータベースである。
その過程で,Turathデータセットのサブセットを専門とするTurath Standard,Art,UNESCOの3つのベンチマークデータベースを紹介した。
Turathの結果として、機械学習研究者は、表現不足の地域に関わり、さらに文化に焦点を絞ったデータベースのリリースを刺激したいと考えています。
- 参考スコア(独自算出の注目度): 3.089363601865192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale image databases remain largely biased towards objects and
activities encountered in a select few cultures. This absence of
culturally-diverse images, which we refer to as the hidden tail, limits the
applicability of pre-trained neural networks and inadvertently excludes
researchers from under-represented regions. To begin remedying this issue, we
curate Turath-150K, a database of images of the Arab world that reflect
objects, activities, and scenarios commonly found there. In the process, we
introduce three benchmark databases, Turath Standard, Art, and UNESCO,
specialised subsets of the Turath dataset. After demonstrating the limitations
of existing networks pre-trained on ImageNet when deployed on such benchmarks,
we train and evaluate several networks on the task of image classification. As
a consequence of Turath, we hope to engage machine learning researchers in
under-represented regions, and to inspire the release of additional
culture-focused databases. The database can be accessed here:
danikiyasseh.github.io/Turath.
- Abstract(参考訳): 大規模な画像データベースは、少数の文化で遭遇したオブジェクトやアクティビティに大きく偏っている。
この文化的に多様性のある画像の欠如は隠れた尾と呼ばれ、事前訓練されたニューラルネットワークの適用性を制限し、不注意に研究者を未表示領域から除外する。
この問題を治療するために、一般的に見られる物体、活動、シナリオを反映したアラブ世界の画像データベースであるTurath-150Kをキュレートする。
その過程で,Turathデータセットのサブセットを専門とするTurath Standard,Art,UNESCOの3つのベンチマークデータベースを紹介した。
このようなベンチマークにデプロイされた場合、imagenetで事前トレーニングされた既存のネットワークの制限を実証した後、画像分類のタスクで複数のネットワークを訓練し、評価する。
Turathの結果として、機械学習研究者は、表現不足の地域に関わり、さらに文化に焦点を絞ったデータベースのリリースを刺激したいと考えています。
データベースは、danikiyasseh.github.io/turathからアクセスできる。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Which country is this picture from? New data and methods for DNN-based
country recognition [33.73817899937691]
これまでの研究は主に、写真が撮影された場所のジオコーディネートの推定に焦点が当てられていた。
約400万枚の画像を含む新しいデータセットであるVIPPGeoデータセットを導入する。
このデータセットを用いて、国別認識問題を分類問題とするディープラーニングアーキテクチャを訓練する。
論文 参考訳(メタデータ) (2022-09-02T10:56:41Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Improving Fractal Pre-training [0.76146285961466]
動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
論文 参考訳(メタデータ) (2021-10-06T22:39:51Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - Ensemble Network for Ranking Images Based on Visual Appeal [36.42537020137936]
短時間で同じイベントで撮影された画像(特にグループ写真)のランク付けを行うための計算フレームワークを提案する。
ランキングは、画像の全体的な魅力に対する人間の認識と一致することが期待されている。
論文 参考訳(メタデータ) (2020-06-06T15:51:38Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。