論文の概要: A Benchmark Suite for Systematically Evaluating Reasoning Shortcuts
- arxiv url: http://arxiv.org/abs/2406.10368v1
- Date: Fri, 14 Jun 2024 18:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:52:09.658508
- Title: A Benchmark Suite for Systematically Evaluating Reasoning Shortcuts
- Title(参考訳): 推論ショートカットの体系的評価のためのベンチマークスイート
- Authors: Samuele Bortolotti, Emanuele Marconato, Tommaso Carraro, Paolo Morettin, Emile van Krieken, Antonio Vergari, Stefano Teso, Andrea Passerini,
- Abstract要約: モデルに対する推論ショートカットの影響を体系的に評価するベンチマークスイートであるrsbenchを紹介する。
rsbenchを用いることで、純粋にニューラルモデルとニューラルシンボリックモデルの両方で高品質な概念を得るのは、解決から遠ざかる問題である、と強調する。
- 参考スコア(独自算出の注目度): 20.860617965394848
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The advent of powerful neural classifiers has increased interest in problems that require both learning and reasoning. These problems are critical for understanding important properties of models, such as trustworthiness, generalization, interpretability, and compliance to safety and structural constraints. However, recent research observed that tasks requiring both learning and reasoning on background knowledge often suffer from reasoning shortcuts (RSs): predictors can solve the downstream reasoning task without associating the correct concepts to the high-dimensional data. To address this issue, we introduce rsbench, a comprehensive benchmark suite designed to systematically evaluate the impact of RSs on models by providing easy access to highly customizable tasks affected by RSs. Furthermore, rsbench implements common metrics for evaluating concept quality and introduces novel formal verification procedures for assessing the presence of RSs in learning tasks. Using rsbench, we highlight that obtaining high quality concepts in both purely neural and neuro-symbolic models is a far-from-solved problem. rsbench is available at: https://unitn-sml.github.io/rsbench.
- Abstract(参考訳): 強力な神経分類器の出現は、学習と推論の両方を必要とする問題への関心を高めた。
これらの問題は、信頼性、一般化、解釈可能性、安全性と構造的制約へのコンプライアンスなど、モデルの重要な性質を理解するために重要である。
しかし、最近の研究では、背景知識の学習と推論の両方を必要とするタスクは推論ショートカット(RS)に悩まされることが多く、予測器は、適切な概念を高次元データに関連付けることなく、下流の推論タスクを解くことができる。
この問題に対処するため,RSの影響を受ける高度にカスタマイズ可能なタスクへの容易にアクセスを提供することで,モデルに対するRSの影響を体系的に評価する包括的なベンチマークスイートであるrsbenchを紹介した。
さらに、rsbenchは概念品質を評価するための共通の指標を実装し、学習タスクにおけるRSの存在を評価するための新しい形式的検証手順を導入する。
rsbenchを用いることで、純粋にニューラルモデルとニューラルシンボリックモデルの両方で高品質な概念を得るのは、解決から遠ざかる問題である、と強調する。
rsbench は以下の https://unitn-sml.github.io/rsbench で利用可能である。
関連論文リスト
- Characterizing out-of-distribution generalization of neural networks: application to the disordered Su-Schrieffer-Heeger model [38.79241114146971]
本稿では、量子位相の分類を訓練したニューラルネットワークの予測において、解釈可能性の手法が信頼を高める方法を示す。
特に, 複雑な分類問題において, 分配外分布の一般化を確実にできることを示す。
この研究は,解釈可能性手法の体系的利用が,科学的問題におけるNNの性能をいかに向上させるかを示す一例である。
論文 参考訳(メタデータ) (2024-06-14T13:24:32Z) - BEARS Make Neuro-Symbolic Models Aware of their Reasoning Shortcuts [21.743306538494043]
Reasoning ShortcutsはNeuro-Symbolic(NeSy)予測に影響を及ぼす可能性がある。
彼らは意図しない意味論を活用することによって、象徴的な知識と整合した概念を学ぶ。
我々はNeSyモデルが学習した概念の意味的あいまいさを確実に認識することを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:54:36Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link
Predictors [65.56849255423866]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Pointer Value Retrieval: A new benchmark for understanding the limits of
neural network generalization [40.21297628440919]
我々は、ニューラルネットワークの一般化の限界を探求する新しいベンチマーク、Pointer Value Retrieval(PVR)タスクを導入する。
PVRタスクは視覚的および記号的な入力で構成され、それぞれが様々な難易度を持つ。
このタスク構造が一般化を理解するための豊富なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2021-07-27T03:50:31Z) - Question Answering over Knowledge Bases by Leveraging Semantic Parsing
and Neuro-Symbolic Reasoning [73.00049753292316]
本稿では,意味解析と推論に基づくニューロシンボリック質問回答システムを提案する。
NSQAはQALD-9とLC-QuAD 1.0で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-03T05:17:55Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Relational Neural Machines [19.569025323453257]
本稿では,学習者のパラメータと一階論理に基づく推論を共同で学習するフレームワークを提案する。
ニューラルネットワークは、純粋な準記号学習の場合の古典的な学習結果とマルコフ論理ネットワークの両方を復元することができる。
適切なアルゴリズム解は、大規模な問題において学習と推論が引き出すことができるように考案されている。
論文 参考訳(メタデータ) (2020-02-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。