論文の概要: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents
- arxiv url: http://arxiv.org/abs/2406.04028v1
- Date: Thu, 6 Jun 2024 12:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:59:54.632538
- Title: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents
- Title(参考訳): チェス演奏エージェントの計画解釈のためのコントラストスパースオートエンコーダ
- Authors: Yoann Poupart,
- Abstract要約: 本研究では,一対のゲームトラジェクトリを研究するために,CSAE(Sparse Autoencoder)を提案する。
CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI led chess systems to a superhuman level, yet these systems heavily rely on black-box algorithms. This is unsustainable in ensuring transparency to the end-user, particularly when these systems are responsible for sensitive decision-making. Recent interpretability work has shown that the inner representations of Deep Neural Networks (DNNs) were fathomable and contained human-understandable concepts. Yet, these methods are seldom contextualised and are often based on a single hidden state, which makes them unable to interpret multi-step reasoning, e.g. planning. In this respect, we propose contrastive sparse autoencoders (CSAE), a novel framework for studying pairs of game trajectories. Using CSAE, we are able to extract and interpret concepts that are meaningful to the chess-agent plans. We primarily focused on a qualitative analysis of the CSAE features before proposing an automated feature taxonomy. Furthermore, to evaluate the quality of our trained CSAE, we devise sanity checks to wave spurious correlations in our results.
- Abstract(参考訳): AIはチェスシステムを超人的なレベルに導いたが、これらのシステムはブラックボックスアルゴリズムに大きく依存している。
これは、エンドユーザ、特に機密性の高い意思決定に責任を負うシステムに対して、透明性を確保する上では持続不可能である。
最近の解釈可能性の研究は、ディープニューラルネットワーク(DNN)の内部表現がファソマブルであり、人間の理解可能な概念を含んでいることを示した。
しかし、これらの手法は文脈化されることがほとんどなく、しばしば単一の隠れ状態に基づいているため、多段階の推論、例えば計画の解釈ができない。
本稿では,一対のゲームトラジェクトリを研究するための新しいフレームワークであるCSAEを提案する。
CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
我々は,自動特徴分類の提案の前に,CSAE特徴の質的分析に主に焦点をあてた。
さらに, トレーニングしたCSAEの品質を評価するために, 結果に急激な相関性を持たせるために, 健全度チェックを考案した。
関連論文リスト
- Feature CAM: Interpretable AI in Image Classification [2.4409988934338767]
セキュリティ、金融、健康、製造業など、重要かつ高精度な分野で人工知能を使用するという信頼の欠如がある。
本稿では,摂動・活性化の組み合わせに該当する特徴CAM(Feature CAM)を提案する。
その結果, ABMの3~4倍の精度が得られた。
論文 参考訳(メタデータ) (2024-03-08T20:16:00Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Mathematical Algorithm Design for Deep Learning under Societal and
Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。
以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:32:38Z) - AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。
モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。
提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文 参考訳(メタデータ) (2023-12-02T10:06:54Z) - Representation Engineering: A Top-Down Approach to AI Transparency [132.0398250233924]
表現工学の新たな領域(RepE)を特定し,特徴付ける
RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。
これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:59:07Z) - ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。
量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文 参考訳(メタデータ) (2023-08-22T09:11:53Z) - The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain [0.0]
ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。
特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。
本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-11T21:06:39Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Evaluating Explainable Artificial Intelligence Methods for Multi-label
Deep Learning Classification Tasks in Remote Sensing [0.0]
ベンチマークデータセットで最先端のパフォーマンスを持つディープラーニングモデルを開発した。
モデル予測の理解と解釈に10のXAI手法が用いられた。
Occlusion、Grad-CAM、Limeは、最も解釈可能で信頼性の高いXAIメソッドでした。
論文 参考訳(メタデータ) (2021-04-03T11:13:14Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。