Fugu-MT 論文翻訳(概要): Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents

論文の概要: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents

arxiv url: http://arxiv.org/abs/2406.04028v1
Date: Thu, 6 Jun 2024 12:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 14:59:54.632538
Title: Contrastive Sparse Autoencoders for Interpreting Planning of Chess-Playing Agents
Title（参考訳）: チェス演奏エージェントの計画解釈のためのコントラストスパースオートエンコーダ
Authors: Yoann Poupart,
Abstract要約: 本研究では,一対のゲームトラジェクトリを研究するために,CSAE(Sparse Autoencoder)を提案する。 CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI led chess systems to a superhuman level, yet these systems heavily rely on black-box algorithms. This is unsustainable in ensuring transparency to the end-user, particularly when these systems are responsible for sensitive decision-making. Recent interpretability work has shown that the inner representations of Deep Neural Networks (DNNs) were fathomable and contained human-understandable concepts. Yet, these methods are seldom contextualised and are often based on a single hidden state, which makes them unable to interpret multi-step reasoning, e.g. planning. In this respect, we propose contrastive sparse autoencoders (CSAE), a novel framework for studying pairs of game trajectories. Using CSAE, we are able to extract and interpret concepts that are meaningful to the chess-agent plans. We primarily focused on a qualitative analysis of the CSAE features before proposing an automated feature taxonomy. Furthermore, to evaluate the quality of our trained CSAE, we devise sanity checks to wave spurious correlations in our results.
Abstract（参考訳）: AIはチェスシステムを超人的なレベルに導いたが、これらのシステムはブラックボックスアルゴリズムに大きく依存している。これは、エンドユーザ、特に機密性の高い意思決定に責任を負うシステムに対して、透明性を確保する上では持続不可能である。最近の解釈可能性の研究は、ディープニューラルネットワーク(DNN)の内部表現がファソマブルであり、人間の理解可能な概念を含んでいることを示した。しかし、これらの手法は文脈化されることがほとんどなく、しばしば単一の隠れ状態に基づいているため、多段階の推論、例えば計画の解釈ができない。本稿では,一対のゲームトラジェクトリを研究するための新しいフレームワークであるCSAEを提案する。 CSAEを用いて,チェスエージェントの計画に意味のある概念を抽出し,解釈することができる。我々は,自動特徴分類の提案の前に,CSAE特徴の質的分析に主に焦点をあてた。さらに, トレーニングしたCSAEの品質を評価するために, 結果に急激な相関性を持たせるために, 健全度チェックを考案した。

関連論文リスト

LLMs as Deceptive Agents: How Role-Based Prompting Induces Semantic Ambiguity in Puzzle Tasks [0.0]
この研究は人気のパズルゲーム"Connections"にインスパイアされている。ゼロショットプロンプト、ロールインジェクトされた逆転プロンプト、ヒューマンクラフトの例を比較した。明示的な対立エージェントの挙動が意味的曖昧さを著しく高めることを示す。
論文参考訳（メタデータ） (2025-04-03T03:45:58Z)
Mechanistic understanding and validation of large AI models with SemanticLens [13.712668314238082]
航空機のような人間工学的なシステムとは異なり、AIモデルの内部動作はほとんど不透明である。本稿では、コンポーネントによって符号化された隠れた知識をマッピングするニューラルネットワークの普遍的説明法であるSemanticLensを紹介する。
論文参考訳（メタデータ） (2025-01-09T17:47:34Z)
Interpretable end-to-end Neurosymbolic Reinforcement Learning agents [20.034972354302788]
この研究は、ニューラルネットワークの強みとシンボリックAIを融合した、ニューロシンボリックAIパラダイムの中に自分自身を置く。本稿では,異なるAtariゲーム上で,各コンポーネントを個別に評価するエンドツーエンド学習型SCoBotの実装について述べる。
論文参考訳（メタデータ） (2024-10-18T10:59:13Z)
Perturbation on Feature Coalition: Towards Interpretable Deep Neural Networks [0.1398098625978622]
ディープニューラルネットワーク(DNN)の“ブラックボックス”という性質は、透明性と信頼性を損なう。本稿では,ネットワークの深い情報を利用して相関した特徴を抽出する,特徴連立による摂動に基づく解釈を提案する。
論文参考訳（メタデータ） (2024-08-23T22:44:21Z)
Visual Agents as Fast and Slow Thinkers [88.6691504568041]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。 FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文参考訳（メタデータ） (2024-08-16T17:44:02Z)
Feature CAM: Interpretable AI in Image Classification [2.4409988934338767]
セキュリティ、金融、健康、製造業など、重要かつ高精度な分野で人工知能を使用するという信頼の欠如がある。本稿では,摂動・活性化の組み合わせに該当する特徴CAM(Feature CAM)を提案する。その結果, ABMの3～4倍の精度が得られた。
論文参考訳（メタデータ） (2024-03-08T20:16:00Z)
Mathematical Algorithm Design for Deep Learning under Societal and Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文参考訳（メタデータ） (2024-01-18T15:32:38Z)
AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文参考訳（メタデータ） (2023-12-02T10:06:54Z)
Representation Engineering: A Top-Down Approach to AI Transparency [132.0398250233924]
表現工学の新たな領域(RepE)を特定し,特徴付ける RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
論文参考訳（メタデータ） (2023-10-02T17:59:07Z)
ShadowNet for Data-Centric Quantum System Learning [188.683909185536]
本稿では,ニューラルネットワークプロトコルと古典的シャドウの強みを組み合わせたデータ中心学習パラダイムを提案する。ニューラルネットワークの一般化力に基づいて、このパラダイムはオフラインでトレーニングされ、これまで目に見えないシステムを予測できる。量子状態トモグラフィーおよび直接忠実度推定タスクにおいて、我々のパラダイムのインスタンス化を示し、60量子ビットまでの数値解析を行う。
論文参考訳（メタデータ） (2023-08-22T09:11:53Z)
Interpretable Self-Aware Neural Networks for Robust Trajectory Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-16T06:28:20Z)
Interpretable part-whole hierarchies and conceptual-semantic relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文参考訳（メタデータ） (2022-03-07T10:56:13Z)
Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文参考訳（メタデータ） (2020-04-15T15:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。