論文の概要: Champion Solution for the WSDM2023 Toloka VQA Challenge
- arxiv url: http://arxiv.org/abs/2301.09045v1
- Date: Sun, 22 Jan 2023 03:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:15:50.892927
- Title: Champion Solution for the WSDM2023 Toloka VQA Challenge
- Title(参考訳): WSDM2023 Toloka VQA Challengeのチャンピオンソリューション
- Authors: Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu
- Abstract要約: We present our champion solution to the WSDM2023 Toloka Visual Question Answering (VQA) Challenge。
我々は、事前学習のないアダプタネットワークであるViT-Adapterを活用し、マルチモーダル事前学習Uni-Perceiverを適用して、クロスモーダルなローカライゼーションを改善する。
我々の手法は、それぞれ公開テストセットとプライベートテストセットで77.5 IoUと76.347 IoUを達成し、まずリーダーボードにランク付けする。
- 参考スコア(独自算出の注目度): 23.276456212372615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solution to the WSDM2023 Toloka
Visual Question Answering (VQA) Challenge. Different from the common VQA and
visual grounding (VG) tasks, this challenge involves a more complex scenario,
i.e. inferring and locating the object implicitly specified by the given
interrogative question. For this task, we leverage ViT-Adapter, a
pre-training-free adapter network, to adapt multi-modal pre-trained
Uni-Perceiver for better cross-modal localization. Our method ranks first on
the leaderboard, achieving 77.5 and 76.347 IoU on public and private test sets,
respectively. It shows that ViT-Adapter is also an effective paradigm for
adapting the unified perception model to vision-language downstream tasks. Code
and models will be released at
https://github.com/czczup/ViT-Adapter/tree/main/wsdm2023.
- Abstract(参考訳): 本稿では,WSDM2023 Toloka Visual Question Answering (VQA) Challengeに対するチャンピオンソリューションを提案する。
一般的なVQAや視覚的グラウンド(VG)タスクとは異なり、この課題はより複雑なシナリオ、すなわち与えられた質問によって暗黙的に特定されたオブジェクトを推論し、位置付けすることを含む。
そこで本研究では,プレトレーニングフリーアダプタネットワークであるvit-adapterを用いて,マルチモーダルプリトレーニングuni-perceiverを適用し,クロスモーダルローカライズを改善する。
我々の手法は、それぞれ公開テストセットとプライベートテストセットで77.5 IoUと76.347 IoUを達成した。
また,ViT-Adapterは視覚言語下流タスクへの統合認識モデルの適用に有効なパラダイムであることを示す。
コードとモデルはhttps://github.com/czczup/ViT-Adapter/tree/main/wsdm2023でリリースされる。
関連論文リスト
- Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge [9.915564470970049]
We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。
マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
論文 参考訳(メタデータ) (2024-07-05T04:56:05Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Integrating Image Features with Convolutional Sequence-to-sequence
Network for Multilingual Visual Question Answering [0.0]
VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。
VLSP2022-EVJVQA共有タスクは、Visual Question Answeringタスクを、新たにリリースされたデータセット上の多言語ドメインに格納する。
我々は、この課題をシーケンシャル・ツー・シーケンス学習タスクとしてアプローチし、事前訓練された最先端VQAモデルからのヒントを統合する。
公開テストセットで0.3442点,プライベートテストセットで0.4210点,コンペでは3位となった。
論文 参考訳(メタデータ) (2023-03-22T15:49:33Z) - Continual VQA for Disaster Response Systems [0.0]
Visual Question Answering (VQA)は、入力画像から質問に答えることを含むマルチモーダルタスクである。
主な課題は、影響地域の評価におけるラベルの生成による遅延である。
トレーニング済みのCLIPモデルをデプロイし、ビジュアルイメージペアに基づいてトレーニングする。
我々は、FloodNetデータセットの過去の最先端結果を上回った。
論文 参考訳(メタデータ) (2022-09-21T12:45:51Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal
Grounding [7.995360025953931]
視覚的質問応答(VQA)は、入力画像に関する自然言語の質問に応答するマルチモーダルタスクである。
我々は、VQAモデルのクロスデータセット適応能力を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいる。
論文 参考訳(メタデータ) (2022-01-24T12:42:30Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。