論文の概要: InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion
- arxiv url: http://arxiv.org/abs/2305.17716v4
- Date: Mon, 5 Jun 2023 22:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:27:47.755547
- Title: InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation
based on Visual Illusion
- Title(参考訳): InDL:ビジュアルイリュージョンに基づくインダイアグラム論理解釈のための新しいデータセットとベンチマーク
- Authors: Haobo Yang, Wenyu Wang, Ze Cao, Zhekai Duan, Xuchen Liu
- Abstract要約: 本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。
我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
- 参考スコア(独自算出の注目度): 1.7980584146314789
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel approach to evaluating deep learning models'
capacity for in-diagram logic interpretation. Leveraging the intriguing realm
of visual illusions, we establish a unique dataset, InDL, designed to
rigorously test and benchmark these models. Deep learning has witnessed
remarkable progress in domains such as computer vision and natural language
processing. However, models often stumble in tasks requiring logical reasoning
due to their inherent 'black box' characteristics, which obscure the
decision-making process. Our work presents a new lens to understand these
models better by focusing on their handling of visual illusions -- a complex
interplay of perception and logic. We utilize six classic geometric optical
illusions to create a comparative framework between human and machine visual
perception. This methodology offers a quantifiable measure to rank models,
elucidating potential weaknesses and providing actionable insights for model
improvements. Our experimental results affirm the efficacy of our benchmarking
strategy, demonstrating its ability to effectively rank models based on their
logic interpretation ability. As part of our commitment to reproducible
research, the source code and datasets will be made publicly available at
https://github.com/rabbit-magic-wh/InDL
- Abstract(参考訳): 本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。
視覚錯視の興味深い領域を活用して、これらのモデルを厳格にテストし、ベンチマークするために設計されたユニークなデータセットInDLを構築します。
ディープラーニングはコンピュータビジョンや自然言語処理といった領域で顕著な進歩をみせた。
しかしながら、モデルは、決定過程を曖昧にする固有の「ブラックボックス」特性のために、論理的推論を必要とするタスクに悩まされることが多い。
私たちの研究は、知覚と論理の複雑な相互作用である視覚錯覚の扱いに焦点を当てることで、これらのモデルをよりよく理解するための新しいレンズを提示します。
6つの古典的な幾何学的錯覚を用いて,人間と機械の視覚知覚の比較枠組みを構築した。
この方法論は、モデルをランク付けし、潜在的な弱点を解明し、モデル改善のための実行可能な洞察を提供する。
実験により,本手法の有効性を検証し,その論理解釈能力に基づくモデルランキングの有効性を示す。
再現可能な研究へのコミットメントの一環として、ソースコードとデータセットはhttps://github.com/rabbit-magic-wh/InDLで公開されます。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Human-Understandable Decision Making for Visual Recognition [30.30163407674527]
モデル学習プロセスに人間の知覚の優先順位を組み込むことにより,深層ニューラルネットワークを訓練する新たなフレームワークを提案する。
提案モデルの有効性を2つの古典的視覚認識タスクで評価する。
論文 参考訳(メタデータ) (2021-03-05T02:07:33Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Explaining Convolutional Neural Networks through Attribution-Based Input
Sampling and Block-Wise Feature Aggregation [22.688772441351308]
クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。
しかし、帰属法は、その説明力を制限した解像度とぼやけた説明地図を提供する。
本研究では、帰属型入力サンプリング技術に基づいて、モデルの複数の層から可視化マップを収集する。
また,CNNモデル全体に適用可能な層選択戦略を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:27:30Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。