論文の概要: Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge
- arxiv url: http://arxiv.org/abs/2407.04255v1
- Date: Fri, 5 Jul 2024 04:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:31:15.258467
- Title: Second Place Solution of WSDM2023 Toloka Visual Question Answering Challenge
- Title(参考訳): WSDM2023 Tolokaの第二の解決法
- Authors: Xiangyu Wu, Zhouyang Chi, Yang Yang, Jianfeng Lu,
- Abstract要約: We present our solution for the WSDM2023 Toloka Visual Question Answering Challenge。
マルチモーダル事前学習モデルの適用に触発されて,我々は3段階のソリューションを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
- 参考スコア(独自算出の注目度): 9.915564470970049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solution for the WSDM2023 Toloka Visual Question Answering Challenge. Inspired by the application of multimodal pre-trained models to various downstream tasks(e.g., visual question answering, visual grounding, and cross-modal retrieval), we approached this competition as a visual grounding task, where the input is an image and a question, guiding the model to answer the question and display the answer as a bounding box on the image. We designed a three-stage solution for this task. Specifically, we used the visual-language pre-trained model OFA as the foundation. In the first stage, we constructed a large-scale synthetic dataset similar to the competition dataset and coarse-tuned the model to learn generalized semantic information. In the second stage, we treated the competition task as a visual grounding task, loaded the weights from the previous stage, and continued to fine-tune the model on the competition dataset, transferring the semantic information learned in the first stage to the competition task. Finally, we designed a bounding box matching and replacing post-processing strategy to correct the model's prediction results. Our team achieved a score of 76.342 on the final leaderboard, ranking second.
- Abstract(参考訳): 本稿では,WSDM2023 Toloka Visual Question Answering Challengeについて述べる。
マルチモーダル事前学習モデルの様々な下流タスク(例えば、視覚的質問応答、視覚的接地、および横断的検索)への適用に触発されて、私たちはこの競合を視覚的接地タスクとしてアプローチし、入力は画像と質問であり、モデルに質問への回答を誘導し、その答を画像上のバウンディングボックスとして表示する。
私たちはこのタスクのために3段階のソリューションを設計しました。
具体的には,視覚言語事前学習モデルOFAを基礎として使用した。
最初の段階では、競合データセットに似た大規模な合成データセットを構築し、そのモデルを粗調整して、一般化された意味情報を学習した。
第2段階では、競争課題を視覚的接地タスクとして扱い、前段から重みをロードし、競争データセット上でモデルを微調整し続け、第1段で学習した意味情報を競争課題に転送した。
最後に、モデルの予測結果を修正するために、バウンディングボックスマッチングと後処理戦略の置き換えを設計した。
我々のチームは最終予選で76.342点を獲得し、ランキング2位となった。
関連論文リスト
- Toloka Visual Question Answering Benchmark [7.71562336736357]
Toloka Visual Question Answeringは、機械学習システムのパフォーマンスと人間のレベルの専門知識を比較するための、クラウドソースによる新しいデータセットである。
私たちのデータセットには45,199対のイメージと質問が含まれており、真理境界ボックスを備え、列車と2つのテストサブセットに分割されています。
論文 参考訳(メタデータ) (2023-09-28T15:18:35Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - A Better Loss for Visual-Textual Grounding [74.81353762517979]
テキスト句と画像とが与えられた場合、視覚的接地問題は、文によって参照された画像の内容を特定するタスクとして定義される。
ヒューマン・コンピュータ・インタラクション、画像・テキスト・リファレンス・レゾリューション、ビデオ・テキスト・リファレンス・レゾリューションなどにおける現実的な応用がいくつかある課題である。
本稿では,より効率的な損失関数の導入により,最先端モデルよりも高い精度が得られるモデルを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:26:54Z) - An Empirical Study of Vehicle Re-Identification on the AI City Challenge [19.13038665501964]
Track2は、現実世界のデータと合成データの両方を扱う車両再識別(ReID)タスクである。
主に、この課題におけるトレーニングデータ、教師なしドメイン適応(UDA)トレーニング、後処理、モデルアンサンブルの4点に注目します。
以上の手法により, 最終的に0.7445mAPのスコアが得られた。
論文 参考訳(メタデータ) (2021-05-20T12:20:52Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。