論文の概要: Toloka Visual Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2309.16511v1
- Date: Thu, 28 Sep 2023 15:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:59:31.425595
- Title: Toloka Visual Question Answering Benchmark
- Title(参考訳): トルカ視覚質問応答ベンチマーク
- Authors: Dmitry Ustalov and Nikita Pavlichenko and Sergey Koshelev and Daniil
Likhobaba and Alisa Smirnova
- Abstract要約: Toloka Visual Question Answeringは、機械学習システムのパフォーマンスと人間のレベルの専門知識を比較するための、クラウドソースによる新しいデータセットである。
私たちのデータセットには45,199対のイメージと質問が含まれており、真理境界ボックスを備え、列車と2つのテストサブセットに分割されています。
- 参考スコア(独自算出の注目度): 7.71562336736357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Toloka Visual Question Answering, a new
crowdsourced dataset allowing comparing performance of machine learning systems
against human level of expertise in the grounding visual question answering
task. In this task, given an image and a textual question, one has to draw the
bounding box around the object correctly responding to that question. Every
image-question pair contains the response, with only one correct response per
image. Our dataset contains 45,199 pairs of images and questions in English,
provided with ground truth bounding boxes, split into train and two test
subsets. Besides describing the dataset and releasing it under a CC BY license,
we conducted a series of experiments on open source zero-shot baseline models
and organized a multi-phase competition at WSDM Cup that attracted 48
participants worldwide. However, by the time of paper submission, no machine
learning model outperformed the non-expert crowdsourcing baseline according to
the intersection over union evaluation score.
- Abstract(参考訳): 本稿では,視覚的質問応答タスクにおいて,機械学習システムの性能と人間のレベルの専門知識を比較するためのクラウドソース型データセットであるToloka Visual Question Answeringを提案する。
このタスクでは、画像とテキストの質問が与えられたら、その質問に正しく応答するオブジェクトの周りに境界ボックスを描く必要がある。
各画像検索ペアは応答を含み、画像毎に1つの正しい応答しか持たない。
私たちのデータセットには45,199対のイメージと質問が含まれており、真理境界ボックスを備え、列車と2つのテストサブセットに分割されています。
データセットの説明とCC BYライセンス下でのリリースに加えて、オープンソースのゼロショットベースラインモデルに関する一連の実験を行い、WSDMカップで多フェーズコンペを開催しました。
しかし、論文提出時までには、組合評価スコアの交点によって、非専門家のクラウドソーシングベースラインを上回った機械学習モデルは存在しなかった。
関連論文リスト
- Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge [9.915564470970049]
We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。
マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
論文 参考訳(メタデータ) (2024-07-05T04:56:05Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - TQ-Net: Mixed Contrastive Representation Learning For Heterogeneous Test
Questions [18.186909839033017]
テスト質問(TQ)は通常異質でマルチモーダルで、テキストのみを含むものもあれば、リテラル記述以上の情報を含むものもある。
本稿では,2段階の教師なしインスタンスレベルのコントラスト型事前学習法を用いて,従来のテキストのみの表現を改善する。
そして、TQ-Netは、画像の内容と異種データの表現を融合するために提案された。
論文 参考訳(メタデータ) (2023-03-09T10:55:48Z) - Grounding Answers for Visual Questions Asked by Visually Impaired People [16.978747012406266]
VizWiz-VQA-Groundingは、視覚障害者が質問する視覚的質問に答えを視覚的に根拠付ける最初のデータセットである。
データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を実証します。
論文 参考訳(メタデータ) (2022-02-04T06:47:16Z) - The Met Dataset: Instance-level Recognition for Artworks [19.43143591288768]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。
私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文 参考訳(メタデータ) (2022-02-03T18:13:30Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。