論文の概要: V-LoL: A Diagnostic Dataset for Visual Logical Learning
- arxiv url: http://arxiv.org/abs/2306.07743v3
- Date: Wed, 13 Nov 2024 12:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:45.161174
- Title: V-LoL: A Diagnostic Dataset for Visual Logical Learning
- Title(参考訳): V-LoL:ビジュアル論理学習のための診断データセット
- Authors: Lukas Helff, Wolfgang Stammer, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting,
- Abstract要約: 本稿では,視覚的および論理的課題をシームレスに組み合わせた診断的視覚論理学習データセットV-LoLを提案する。
V-LoL-Trainは、幅広い視覚的論理的学習課題を調査するためのプラットフォームを提供する。
従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。
- 参考スコア(独自算出の注目度): 22.971426186079235
- License:
- Abstract: Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the diagnostic visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Train, - a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Train provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even SOTA AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations of each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems.
- Abstract(参考訳): 近年のビジュアルAIの発展にもかかわらず、正確な論理的推論の欠如から抽象的な一般化能力、複雑でノイズの多いシーンの理解に至るまで、さまざまな欠点が残っている。
残念ながら、既存のベンチマークはこれらのいくつかの側面を捉えるように設計されていない。
ディープラーニングデータセットは、視覚的に複雑なデータではなく、単純な視覚的推論タスクに焦点を当てるが、帰納的論理データセットは複雑な論理的学習タスクを含むが、視覚的コンポーネントは欠落している。
これを解決するために,視覚的・論理的課題をシームレスに組み合わせた視覚的論理的学習データセットV-LoLを提案する。
特に,V-LoL,V-LoL-Trainの最初のインスタンス化について紹介する。
複雑な視覚シーンと柔軟な論理的推論タスクを多目的フレームワークに組み込むことで、V-LoL-Trainは幅広い視覚的論理的学習課題を調査するためのプラットフォームを提供する。
従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。
我々の評価は、SOTA AIでさえ視覚論理学習の難しさに直面し、それぞれの方法論の独特な利点と限界を強調していることを示している。
全体として、V-LoLはAIシステムの視覚論理学習における現在の能力を理解し、拡張するための新しい道を開く。
関連論文リスト
- CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation [60.920536939067524]
我々は,複数の動的エージェントを持つ都市型環境を対象とした,カスタマイズ可能な一階述語論理(FOL)に基づく最初のシミュレータであるLogiCityを紹介する。
LogiCityは、IsAmbulance(X)やIsClose(X, Y)のような意味的および空間的概念を用いた多様な都市要素をモデル化する
LogiCityの重要な機能は、ユーザ設定可能な抽象化のサポートであり、論理的推論のためにカスタマイズ可能なシミュレーションの複雑さを可能にする。
論文 参考訳(メタデータ) (2024-11-01T17:59:46Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - A Benchmark for Compositional Visual Reasoning [5.576460160219606]
我々は、よりデータ効率のよい学習アルゴリズムへ進むために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。
我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。
提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および, 構成性を活用する能力が含まれている。
論文 参考訳(メタデータ) (2022-06-11T00:04:49Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - Logic Tensor Networks [9.004005678155023]
学習と推論をサポートする神経シンボリック形式論と計算モデルであるLogic Networks(LTN)を提示する。
LTNがいくつかのAIタスクの仕様と計算に一様言語を提供することを示す。
論文 参考訳(メタデータ) (2020-12-25T22:30:18Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。