Fugu-MT 論文翻訳(概要): Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects

論文の概要: Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects

arxiv url: http://arxiv.org/abs/2410.06405v1
Date: Tue, 8 Oct 2024 22:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 05:59:12.491736
Title: Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects
Title（参考訳）: 視覚変換器を用いた抽象・推論コーパスの抽出-2次元表現・位置・物体の重要性-
Authors: Wenhao Li, Yudong Xu, Scott Sanner, Elias Boutros Khalil,
Abstract要約: 視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。 ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
参考スコア（独自算出の注目度）: 31.926206783846144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Abstraction and Reasoning Corpus (ARC) is a popular benchmark focused on visual reasoning in the evaluation of Artificial Intelligence systems. In its original framing, an ARC task requires solving a program synthesis problem over small 2D images using a few input-output training pairs. In this work, we adopt the recently popular data-driven approach to the ARC and ask whether a Vision Transformer (ViT) can learn the implicit mapping, from input image to output image, that underlies the task. We show that a ViT -- otherwise a state-of-the-art model for images -- fails dramatically on most ARC tasks even when trained on one million examples per task. This points to an inherent representational deficiency of the ViT architecture that makes it incapable of uncovering the simple structured mappings underlying the ARC tasks. Building on these insights, we propose ViTARC, a ViT-style architecture that unlocks some of the visual reasoning capabilities required by the ARC. Specifically, we use a pixel-level input representation, design a spatially-aware tokenization scheme, and introduce a novel object-based positional encoding that leverages automatic segmentation, among other enhancements. Our task-specific ViTARC models achieve a test solve rate close to 100% on more than half of the 400 public ARC tasks strictly through supervised learning from input-output grids. This calls attention to the importance of imbuing the powerful (Vision) Transformer with the correct inductive biases for abstract visual reasoning that are critical even when the training data is plentiful and the mapping is noise-free. Hence, ViTARC provides a strong foundation for future research in visual reasoning using transformer-based architectures.
Abstract（参考訳）: ARC(Abstraction and Reasoning Corpus)は、人工知能システムの評価における視覚的推論に焦点を当てた人気のあるベンチマークである。当初のフレーミングでは、ARCタスクは、少数の入力出力トレーニングペアを使用して、小さな2D画像に対してプログラム合成問題を解決する必要がある。本研究では、最近のARCに対するデータ駆動型アプローチを採用し、視覚変換器(ViT)が暗黙マッピングを入力画像から出力画像へ学習できるかどうかを問う。画像の最先端モデルであるViTは、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗する。このことは、ARCタスクの裏にある単純な構造化されたマッピングを明らかにすることができないViTアーキテクチャの固有の表現不足を示している。これらの知見に基づいて、我々は、ARCが必要とする視覚的推論能力のいくつかを解放するViTARCというViTARCスタイルのアーキテクチャを提案する。具体的には、画素レベルの入力表現を使用し、空間的に認識可能なトークン化スキームを設計し、自動セグメンテーションを利用する新しいオブジェクトベースの位置符号化を導入する。我々のタスク固有のViTARCモデルは、入力出力グリッドからの教師あり学習により、400のパブリックARCタスクの半数以上で100%近い解率を達成する。このことは、トレーニングデータが豊富であり、マッピングがノイズフリーである場合でも重要な抽象的視覚推論のための正しい帰納バイアスを持つ強力な(視覚)トランスフォーマーを入力することの重要性に注意を喚起する。したがって、ViTARCはトランスフォーマーベースのアーキテクチャを用いた視覚推論における将来の研究の強力な基盤を提供する。

関連論文リスト

TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。構築した自己意識を近似するFibottention Architectureを提案する。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文参考訳（メタデータ） (2024-05-27T08:26:58Z)
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。最近のソリューションは主にオールインワンモデルです。汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:02Z)
Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文参考訳（メタデータ） (2023-12-31T11:38:50Z)
UPOCR: Towards Unified Pixel-Level OCR Interface [36.966005829678124]
We propose UPOCR, a simple-yet- effective generalist model for Unified Pixel-level OCR interface。具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
論文参考訳（メタデータ） (2023-12-05T11:53:17Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)
Solving Reasoning Tasks with a Slot Transformer [7.966351917016229]
本稿では、スロットアテンション、トランスフォーマー、およびビデオシーンデータに対する反復的変動推論を利用して表現を推論するアーキテクチャであるSlot Transformerを提案する。アーキテクチャの主要なコンポーネントの有効性,モデルの表現能力,不完全な入力から予測できる能力について評価する。
論文参考訳（メタデータ） (2022-10-20T16:40:30Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
Efficient Self-supervised Vision Transformers for Representation Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文参考訳（メタデータ） (2021-06-17T19:57:33Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。