論文の概要: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents
- arxiv url: http://arxiv.org/abs/2406.04028v1
- Date: Thu, 6 Jun 2024 12:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:59:54.632538
- Title: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents
- Title(参考訳): チェス演奏エージェントの計画解釈のためのコントラストスパースオートエンコーダ
- Authors: Yoann Poupart,
- Abstract要約: 本研究では,一対のゲームトラジェクトリを研究するために,CSAE(Sparse Autoencoder)を提案する。
CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI led chess systems to a superhuman level, yet these systems heavily rely on black-box algorithms. This is unsustainable in ensuring transparency to the end-user, particularly when these systems are responsible for sensitive decision-making. Recent interpretability work has shown that the inner representations of Deep Neural Networks (DNNs) were fathomable and contained human-understandable concepts. Yet, these methods are seldom contextualised and are often based on a single hidden state, which makes them unable to interpret multi-step reasoning, e.g. planning. In this respect, we propose contrastive sparse autoencoders (CSAE), a novel framework for studying pairs of game trajectories. Using CSAE, we are able to extract and interpret concepts that are meaningful to the chess-agent plans. We primarily focused on a qualitative analysis of the CSAE features before proposing an automated feature taxonomy. Furthermore, to evaluate the quality of our trained CSAE, we devise sanity checks to wave spurious correlations in our results.
- Abstract(参考訳): AIはチェスシステムを超人的なレベルに導いたが、これらのシステムはブラックボックスアルゴリズムに大きく依存している。
これは、エンドユーザ、特に機密性の高い意思決定に責任を負うシステムに対して、透明性を確保する上では持続不可能である。
最近の解釈可能性の研究は、ディープニューラルネットワーク(DNN)の内部表現がファソマブルであり、人間の理解可能な概念を含んでいることを示した。
しかし、これらの手法は文脈化されることがほとんどなく、しばしば単一の隠れ状態に基づいているため、多段階の推論、例えば計画の解釈ができない。
本稿では,一対のゲームトラジェクトリを研究するための新しいフレームワークであるCSAEを提案する。
CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
我々は,自動特徴分類の提案の前に,CSAE特徴の質的分析に主に焦点をあてた。
さらに, トレーニングしたCSAEの品質を評価するために, 結果に急激な相関性を持たせるために, 健全度チェックを考案した。
関連論文リスト
- Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling [5.954573238057435]
EUの一般データ保護規則は、リスクの高いAIシステムが十分に解釈可能であることを要求している。
既存の説明可能なメソッドは、しばしば解釈可能性とパフォーマンスを妥協する。
我々は、新しく一般化可能なフレームワーク、すなわち注意誘導概念モデル(AGCM)を提案する。
AGCMは、予測につながる概念とそれらがどこに観察されるかを特定することによって、学習可能な概念的な説明を提供する。
論文 参考訳(メタデータ) (2025-02-14T13:15:21Z) - Mechanistic understanding and validation of large AI models with SemanticLens [13.712668314238082]
航空機のような人間工学的なシステムとは異なり、AIモデルの内部動作はほとんど不透明である。
本稿では、コンポーネントによって符号化された隠れた知識をマッピングするニューラルネットワークの普遍的説明法であるSemanticLensを紹介する。
論文 参考訳(メタデータ) (2025-01-09T17:47:34Z) - Perturbation on Feature Coalition: Towards Interpretable Deep Neural Networks [0.1398098625978622]
ディープニューラルネットワーク(DNN)の“ブラックボックス”という性質は、透明性と信頼性を損なう。
本稿では,ネットワークの深い情報を利用して相関した特徴を抽出する,特徴連立による摂動に基づく解釈を提案する。
論文 参考訳(メタデータ) (2024-08-23T22:44:21Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - Mathematical Algorithm Design for Deep Learning under Societal and
Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。
以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:32:38Z) - AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。
モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。
提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文 参考訳(メタデータ) (2023-12-02T10:06:54Z) - Representation Engineering: A Top-Down Approach to AI Transparency [132.0398250233924]
表現工学の新たな領域(RepE)を特定し,特徴付ける
RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。
これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:59:07Z) - ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。
ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。
量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文 参考訳(メタデータ) (2023-08-22T09:11:53Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。