論文の概要: Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI
Journey 2021
- arxiv url: http://arxiv.org/abs/2111.10974v1
- Date: Mon, 22 Nov 2021 03:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 13:29:27.429465
- Title: Many Heads but One Brain: an Overview of Fusion Brain Challenge on AI
Journey 2021
- Title(参考訳): 多くの頭脳と1つの脳 - ai journey 2021でのfusion brain challengeの概要
- Authors: Daria Bakshandaeva, Denis Dimitrov, Alex Shonenkov, Mark Potanin,
Vladimir Arkhipkin, Denis Karachev, Vera Davydova, Anton Voronov, Mikhail
Martynov, Natalia Semenova, Mikhail Stepnov, Elena Tutubalina, Andrey
Chertok, Aleksandr Petiushko
- Abstract要約: Fusion Brain Challengeは、ユニバーサルアーキテクチャプロセスを異なるモダリティにすることを目的としている。
参加者の提出したタスクをテストするために、各タスクのためのデータセットを作成しました。
データセットのロシア部分は、世界最大のロシアの手書きデータセットである。
- 参考スコア(独自算出の注目度): 46.56884693120608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supporting the current trend in the AI community, we propose the AI Journey
2021 Challenge called Fusion Brain which is targeted to make the universal
architecture process different modalities (namely, images, texts, and code) and
to solve multiple tasks for vision and language. The Fusion Brain Challenge
https://github.com/sberbank-ai/fusion_brain_aij2021 combines the following
specific tasks: Code2code Translation, Handwritten Text recognition, Zero-shot
Object Detection, and Visual Question Answering. We have created datasets for
each task to test the participants' submissions on it. Moreover, we have opened
a new handwritten dataset in both Russian and English, which consists of 94,130
pairs of images and texts. The Russian part of the dataset is the largest
Russian handwritten dataset in the world. We also propose the baseline solution
and corresponding task-specific solutions as well as overall metrics.
- Abstract(参考訳): aiコミュニティの現在のトレンドをサポートするために、汎用アーキテクチャプロセス(イメージ、テキスト、コードなど)を異なるモダリティにし、視覚と言語のための複数のタスクを解決することを目的とした、fusion brainと呼ばれるai journey 2021チャレンジを提案する。
Fusion Brain Challenge https://github.com/sberbank-ai/fusion_brain_aij2021は、Code2code Translation、手書きテキスト認識、Zero-shot Object Detection、Visual Question Answeringといった特定のタスクを統合している。
参加者の投稿をテストするために、各タスク用のデータセットを作成しました。
さらに、ロシア語と英語の両方で、94,130対の画像とテキストからなる新しい手書きデータセットを公開しました。
データセットのロシア部分は、世界最大のロシアの手書きデータセットである。
また、ベースラインソリューションと対応するタスク固有のソリューション、および全体的なメトリクスも提案する。
関連論文リスト
- ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images [1.2529442734851663]
28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。
このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。
ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
論文 参考訳(メタデータ) (2024-04-29T03:17:47Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - The Algonauts Project 2023 Challenge: UARK-UAlbany Team Solution [21.714597774964194]
この研究は、Algonauts Project 2023 Challengeへのソリューションを提示します。
この課題の主な目的は、脳の反応を予測するために計算モデルを採用することである。
我々はこの課題に対処するために、2段階のトレーニングプロセスを通じて画像ベースの脳エンコーダを構築した。
論文 参考訳(メタデータ) (2023-08-01T03:46:59Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Multilingual Event Linking to Wikidata [5.726712522440283]
イベントリンクタスクの2つの変種を提案する: 1) イベント記述が言及と同じ言語からのものであるマルチリンガル、2) イベント記述がすべて英語で書かれているクロスリンガル。
このタスクのために大規模なデータセットを自動的にコンパイルし、Wikidataから10.9K以上のイベントを参照する44言語にわたる1.8Mの言及を含む。
論文 参考訳(メタデータ) (2022-04-13T17:28:23Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - Visuo-Linguistic Question Answering (VLQA) Challenge [47.54738740910987]
与えられた画像-テキストのモダリティに関する共同推論を導出する新しいタスクを提案する。
本稿では,VLQA問題コーパスを質問応答設定にコンパイルする。
論文 参考訳(メタデータ) (2020-05-01T12:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。