Fugu-MT 論文翻訳(概要): V-LoL: A Diagnostic Dataset for Visual Logical Learning

論文の概要: V-LoL: A Diagnostic Dataset for Visual Logical Learning

arxiv url: http://arxiv.org/abs/2306.07743v2
Date: Mon, 3 Jul 2023 10:24:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-04 12:45:38.380163
Title: V-LoL: A Diagnostic Dataset for Visual Logical Learning
Title（参考訳）: V-LoL:ビジュアル論理学習のための診断データセット
Authors: Lukas Helff, Wolfgang Stammer, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting
Abstract要約: 本稿では,視覚的および論理的課題をシームレスに組み合わせた視覚論理学習データセットV-LoLを提案する。 V-LoL-Trainsは、幅広い視覚的論理学習課題を調査するためのプラットフォームを提供する。従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。
参考スコア（独自算出の注目度）: 19.926512085069245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Trains, -- a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Trains provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even state-of-the-art AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations specific to each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems.
Abstract（参考訳）: 近年のビジュアルAIの発展にもかかわらず、正確な論理的推論の欠如から抽象的な一般化能力、複雑でノイズの多いシーンの理解に至るまで、さまざまな欠点が残っている。残念ながら、既存のベンチマークはこれらのいくつかの側面を捉えるように設計されていない。ディープラーニングデータセットは、視覚的に複雑なデータではなく、単純な視覚的推論タスクに焦点を当てるが、帰納的論理データセットは複雑な論理的学習タスクを含む。そこで我々は,視覚的および論理的課題をシームレスに組み合わせた視覚論理学習データセットV-LoLを提案する。特に、V-LoLの最初のインスタンス化であるV-LoL-Trainsを紹介します。複雑なビジュアルシーンと柔軟な論理推論タスクを汎用フレームワークに組み込むことで、v-lol-trainsは幅広い視覚的な論理学習の課題を調査するプラットフォームを提供する。従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。我々の評価は、最先端のAIでさえ視覚論理学習の課題に対処する上で困難に直面しており、それぞれの方法論に特有の独特なアドバンテージと制限を強調していることを示している。全体として、V-LoLはAIシステムの視覚論理学習における現在の能力を理解し、拡張するための新しい道を開く。

関連論文リスト

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。 41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文参考訳（メタデータ） (2026-02-24T13:38:37Z)
Can Vision-Language Models Solve Visual Math Equations? [49.63524525005989]
視覚言語モデルは、統合認識とシンボリック計算を必要とするタスクに苦労する。タスクを係数カウントと変数認識に分解し、カウントが主要なボトルネックであることを示す。方程式の複雑性が増加するにつれて、記号的推論自体が制限因子となる。
論文参考訳（メタデータ） (2025-09-10T21:16:11Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文参考訳（メタデータ） (2025-06-06T17:06:25Z)
VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow [57.96482272333649]
機能可視化(FV)は、ニューロンが応答している情報をデコードするための強力なツールである。本稿では,FVを原型画像の特徴の統計値と関連するネットワークフローの測定値を組み合わせることで,画像を生成することを提案する。我々のアプローチは、最先端のFVに対して質的かつ定量的に改善される人間の理解可能な可視化をもたらす。
論文参考訳（メタデータ） (2025-03-28T13:08:18Z)
A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では、視覚言語モデル(VLM)における知覚推論インタフェースを識別するために、ボンガード問題(BP)を用いた構造化評価フレームワークを提案する。本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。私たちのフレームワークは貴重な診断ツールを提供し、AIでより堅牢で人間らしい視覚知性を達成するために、視覚処理の忠実性を高める必要性を強調しています。
論文参考訳（メタデータ） (2025-01-23T12:42:42Z)
Neural-Symbolic Reasoning over Knowledge Graphs: A Survey from a Query Perspective [55.79507207292647]
知識グラフ推論は、データマイニング、人工知能、Web、社会科学など、さまざまな分野において重要である。ニューラルAIの台頭は、深層学習の頑健さと象徴的推論の精度を融合させることで、大きな進歩を見せている。大規模言語モデル(LLM)の出現により、知識グラフ推論の新しいフロンティアが開かれた。
論文参考訳（メタデータ） (2024-11-30T18:54:08Z)
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文参考訳（メタデータ） (2024-11-19T18:27:31Z)
LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation [60.920536939067524]
我々は,複数の動的エージェントを持つ都市型環境を対象とした,カスタマイズ可能な一階述語論理(FOL)に基づく最初のシミュレータであるLogiCityを紹介する。 LogiCityは、IsAmbulance(X)やIsClose(X, Y)のような意味的および空間的概念を用いた多様な都市要素をモデル化する LogiCityの重要な機能は、ユーザ設定可能な抽象化のサポートであり、論理的推論のためにカスタマイズ可能なシミュレーションの複雑さを可能にする。
論文参考訳（メタデータ） (2024-11-01T17:59:46Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Visual AI and Linguistic Intelligence Through Steerability and Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文参考訳（メタデータ） (2023-11-18T22:01:33Z)
LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文参考訳（メタデータ） (2023-09-24T05:43:19Z)
Symbolic Visual Reinforcement Learning: A Scalable Framework with Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文参考訳（メタデータ） (2022-12-30T17:50:54Z)
A Benchmark for Compositional Visual Reasoning [5.576460160219606]
我々は、よりデータ効率のよい学習アルゴリズムへ進むために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および, 構成性を活用する能力が含まれている。
論文参考訳（メタデータ） (2022-06-11T00:04:49Z)
GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。 GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文参考訳（メタデータ） (2022-06-10T07:52:06Z)
Logic Tensor Networks [9.004005678155023]
学習と推論をサポートする神経シンボリック形式論と計算モデルであるLogic Networks(LTN)を提示する。 LTNがいくつかのAIタスクの仕様と計算に一様言語を提供することを示す。
論文参考訳（メタデータ） (2020-12-25T22:30:18Z)
Machine Number Sense: A Dataset of Visual Arithmetic Problems for Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。これらの視覚的算術問題は幾何学的フィギュアの形をしている。我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文参考訳（メタデータ） (2020-04-25T17:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。