論文の概要: Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic
Reasoning Task 2023
- arxiv url: http://arxiv.org/abs/2310.06440v1
- Date: Tue, 10 Oct 2023 09:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 17:59:16.988325
- Title: Solution for SMART-101 Challenge of ICCV Multi-modal Algorithmic
Reasoning Task 2023
- Title(参考訳): ICCVマルチモーダルアルゴリズム推論タスク2023のSMART-101への挑戦
- Authors: Xiangyu Wu, Yang Yang, Shengdong Xu, Yifeng Wu, Qingguo Chen, Jianfeng
Lu
- Abstract要約: 本稿では,マルチモーダルなアルゴリズム推論タスクSMART-101 Challengeを提案する。
この課題は、視覚言語パズルの解法におけるニューラルネットワークの抽象化、推論、一般化能力を評価する。
パズル分割構成では、検証セットで26.5、プライベートテストセットで24.30の精度スコアを得た。
- 参考スコア(独自算出の注目度): 13.326745559876558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our solution to a Multi-modal Algorithmic Reasoning
Task: SMART-101 Challenge. Different from the traditional visual
question-answering datasets, this challenge evaluates the abstraction,
deduction, and generalization abilities of neural networks in solving
visuolinguistic puzzles designed specifically for children in the 6-8 age
group. We employed a divide-and-conquer approach. At the data level, inspired
by the challenge paper, we categorized the whole questions into eight types and
utilized the llama-2-chat model to directly generate the type for each question
in a zero-shot manner. Additionally, we trained a yolov7 model on the icon45
dataset for object detection and combined it with the OCR method to recognize
and locate objects and text within the images. At the model level, we utilized
the BLIP-2 model and added eight adapters to the image encoder VIT-G to
adaptively extract visual features for different question types. We fed the
pre-constructed question templates as input and generated answers using the
flan-t5-xxl decoder. Under the puzzle splits configuration, we achieved an
accuracy score of 26.5 on the validation set and 24.30 on the private test set.
- Abstract(参考訳): 本稿では,Multi-modal Algorithmic Reasoning Task: SMART-101 Challengeを提案する。
従来の視覚的質問答えデータセットと異なり、この課題は6-8歳児向けに特別に設計された視覚言語パズルの解法において、ニューラルネットワークの抽象化、推論、一般化能力を評価する。
私たちは分割型アプローチを採用しました。
課題論文から着想を得たデータレベルでは,全質問を8つのタイプに分類し,ラマ-2チャットモデルを用いて各質問の型を直接ゼロショットで生成した。
さらに,オブジェクト検出のための icon45 データセット上で yolov7 モデルをトレーニングし,ocr 法と組み合わせて画像内のオブジェクトやテキストを認識し,検出する。
モデルレベルではBLIP-2モデルを使用し、画像エンコーダVIT-Gに8つのアダプタを追加し、異なる質問型に対する視覚的特徴を適応的に抽出した。
事前構築した質問テンプレートを入力とし,flan-t5-xxlデコーダを用いて回答を生成する。
スプリット構成では,検証セットでは26.5点,プライベートテストセットでは24.30点の精度スコアを得た。
関連論文リスト
- Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024 [8.588965648810483]
本稿では,HYU MLLAB KT Team のマルチモーダルアルゴリズム推論タスク SMART-101 CVPR 2024 Challenge に対する解を提案する。
この課題は,6~8歳児を対象とした複雑な視覚言語パズルに取り組むことで,人間レベルのマルチモーダル理解を実現することを目的としている。
パズル分割構成では,テストセットで29.5のオプション選択精度Oacc,チャレンジセットで27.1の重み付きオプション選択精度(WOSA)を達成した。
論文 参考訳(メタデータ) (2024-06-10T01:45:55Z) - Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。
従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。
本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文 参考訳(メタデータ) (2024-06-08T01:45:06Z) - A Vanilla Multi-Task Framework for Dense Visual Prediction Solution to
1st VCL Challenge -- Multi-Task Robustness Track [31.754017006309564]
様々な視覚認識アルゴリズムをマルチタスクモデルにシームレスに結合するUniNetというフレームワークを提案する。
具体的には,DreTR3D,Mask2Former,BinsFormerを3次元オブジェクト検出,インスタンスセグメンテーション,深さ推定タスクとして選択する。
最後のエントリーは、InternImage-Lバックボーンを備えた単一のモデルで、総合スコアは49.6である。
論文 参考訳(メタデータ) (2024-02-27T08:51:20Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Exploring Multi-Modal Representations for Ambiguity Detection &
Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。
具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。
以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文 参考訳(メタデータ) (2022-02-25T12:10:02Z) - Rotation Invariance and Extensive Data Augmentation: a strategy for the
Mitosis Domain Generalization (MIDOG) Challenge [1.52292571922932]
我々は,MIDOG 2021コンペティションに参加するための戦略を提示する。
このコンペティションの目的は、目に見えないターゲットスキャナーで取得した画像に対する解の一般化を評価することである。
本稿では,最先端のディープラーニング手法の組み合わせに基づく解を提案する。
論文 参考訳(メタデータ) (2021-09-02T10:09:02Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - Self-supervised Learning with Fully Convolutional Networks [24.660086792201263]
セマンティックセグメンテーションのためのラベルのないデータから表現を学習する問題に焦点を当てる。
2つのパッチベース手法に着想を得て,新しい自己教師付き学習フレームワークを開発した。
ベースラインモデルに対して5.8ポイント改善を達成しました。
論文 参考訳(メタデータ) (2020-12-18T02:31:28Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。