論文の概要: ViTCN: Vision Transformer Contrastive Network For Reasoning
- arxiv url: http://arxiv.org/abs/2403.09962v1
- Date: Fri, 15 Mar 2024 02:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:46:21.383279
- Title: ViTCN: Vision Transformer Contrastive Network For Reasoning
- Title(参考訳): ViTCN:視覚変換器による推論のためのコントラストネットワーク
- Authors: Bo Song, Yuanhao Xu, Yichao Wu,
- Abstract要約: 本稿では,機械学習モデルの抽象推論能力をテストするために,RAVENというデータセットを提案する。
本稿では,Contrastive Perceptual Inference Network (CoPiNet) を用いた以前の研究を基に構築した視覚変換器コントラストネットワークを提案する。
この統合は、RAVENデータセット上のピクセルレベルの入力とグローバルワイズ機能から空間時間情報を処理し、推論するマシン能力をさらに強化することを目的としている。
- 参考スコア(独自算出の注目度): 15.240082760651987
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine learning models have achieved significant milestones in various domains, for example, computer vision models have an exceptional result in object recognition, and in natural language processing, where Large Language Models (LLM) like GPT can start a conversation with human-like proficiency. However, abstract reasoning remains a challenge for these models, Can AI really thinking like a human? still be a question yet to be answered. Raven Progressive Matrices (RPM) is a metric designed to assess human reasoning capabilities. It presents a series of eight images as a problem set, where the participant should try to discover the underlying rules among these images and select the most appropriate image from eight possible options that best completes the sequence. This task always be used to test human reasoning abilities and IQ. Zhang et al proposed a dataset called RAVEN which can be used to test Machine Learning model abstract reasoning ability. In this paper, we purposed Vision Transformer Contrastive Network which build on previous work with the Contrastive Perceptual Inference network (CoPiNet), which set a new benchmark for permutationinvariant models Raven Progressive Matrices by incorporating contrast effects from psychology, cognition, and education, and extends this foundation by leveraging the cutting-edge Vision Transformer architecture. This integration aims to further refine the machine ability to process and reason about spatial-temporal information from pixel-level inputs and global wise features on RAVEN dataset.
- Abstract(参考訳): 例えば、コンピュータビジョンモデルはオブジェクト認識において例外的な結果をもたらし、自然言語処理では、GPTのようなLarge Language Models(LLM)が人間のような習熟度で会話を始めることができる。
しかし、抽象的推論はこれらのモデルにとって依然として課題である。
まだ答えられていない質問です
レイヴン・プログレッシブ・マトリックス(Raven Progressive Matrices、RPM)は、人間の推論能力を評価するために設計された計量である。
一連の8つのイメージを問題セットとして提示し、参加者はこれらのイメージの根底にあるルールを発見し、最も最適な8つのオプションから最も適切なイメージを選択するべきである。
このタスクは、常に人間の推論能力とIQをテストするために使用される。
Zhang氏らは、機械学習モデルの抽象推論能力をテストできるRAVENと呼ばれるデータセットを提案した。
本稿では,従来のコントラスト型知覚推論ネットワーク(CoPiNet)を用いたビジョントランスフォーマーコントラストネットワークを目的とし,心理学,認知,教育のコントラスト効果を取り入れた多変量モデルRaven Progressive Matricesを新たにベンチマークし,最先端のビジョントランスフォーマーアーキテクチャを活用することにより,この基盤を拡張した。
この統合は、RAVENデータセット上のピクセルレベルの入力とグローバルワイズ機能から空間時間情報を処理し、推論するマシン能力をさらに強化することを目的としている。
関連論文リスト
- A Feature-based Generalizable Prediction Model for Both Perceptual and
Abstract Reasoning [1.0650780147044159]
人間の知性の目印は、限られた経験から抽象的なルールを推論する能力である。
ディープラーニングの最近の進歩は、複数の人工知能ニューラルネットワークモデルが、人間のパフォーマンスにマッチしたり、超えたりしている。
本稿では,特徴検出,アフィン変換推定,探索を用いたルール検出と応用のためのアルゴリズム的アプローチを提案する。
論文 参考訳(メタデータ) (2024-03-08T19:26:30Z) - On the rate of convergence of an over-parametrized Transformer classifier learned by gradient descent [10.619901778151336]
ChatGPTはGPT4の例である。
本稿では,観測データに適合した変圧器ネットワークの誤分類確率に関する理論的上限を示す。
論文 参考訳(メタデータ) (2023-12-28T13:20:36Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。
我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-28T13:01:32Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Counterfactual Explanation and Causal Inference in Service of Robustness
in Robot Control [15.104159722499366]
我々は「事象AがCの代わりにBを引き起こすように変更できるか?」という形式の逆実数条件の生成モデルを訓練するためのアーキテクチャを提案する。
従来の制御設計手法とは対照的に、ノイズを除去する能力の観点から頑健さを定量化する手法では、ある要件に違反する可能性のある反事実の空間を探索する。
論文 参考訳(メタデータ) (2020-09-18T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。