論文の概要: Am I Building a White Box Agent or Interpreting a Black Box Agent?
- arxiv url: http://arxiv.org/abs/2007.01187v3
- Date: Wed, 8 Jul 2020 15:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:18:37.184707
- Title: Am I Building a White Box Agent or Interpreting a Black Box Agent?
- Title(参考訳): 私はブラックボックスエージェントを作るのかブラックボックスエージェントを解釈するのか?
- Authors: Tom Bewley
- Abstract要約: 規則抽出文学は忠実度精度ジレンマの概念を含んでいる。
私は、現代の説明可能な人工知能の分野におけるこのジレンマの関連性を再確認します。
私は、ホワイトボックスエージェントの構築とブラックボックスエージェントの解釈という、2つの独立した研究方針について議論する。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rule extraction literature contains the notion of a fidelity-accuracy
dilemma: when building an interpretable model of a black box function,
optimising for fidelity is likely to reduce performance on the underlying task,
and vice versa. I reassert the relevance of this dilemma for the modern field
of explainable artificial intelligence, and highlight how it is compounded when
the black box is an agent interacting with a dynamic environment. I then
discuss two independent research directions - building white box agents and
interpreting black box agents - which are both coherent and worthy of
attention, but must not be conflated by researchers embarking on projects in
the domain of agent interpretability.
- Abstract(参考訳): ブラックボックス関数の解釈可能なモデルを構築する場合、忠実性に対する最適化は、基礎となるタスクのパフォーマンスを低下させる可能性があり、その逆も同様である。
私は、このジレンマが現代における説明可能な人工知能の分野と関連性を再評価し、ブラックボックスが動的環境と相互作用するエージェントであるときにどのように複合化されるかを強調する。
次に、ホワイトボックスエージェントの構築とブラックボックスエージェントの解釈という、2つの独立した研究方向について議論します。
関連論文リスト
- Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models [0.3495246564946556]
この研究は、ROSベースの移動ロボットに実装された説明可能性と説明可能性のアーキテクチャを示す。
提案されたソリューションは2つの主要コンポーネントで構成されている。まず、説明責任を提供するブラックボックスのような要素で、ブロックチェーン技術によって達成されるアンチタンパ特性を特徴とする。
第二に、前述のブラックボックスに含まれるデータに対して、Large Language Models(LLM)の機能を利用することで、自然言語の説明を生成するコンポーネントである。
論文 参考訳(メタデータ) (2024-03-14T16:57:18Z) - Agents Need Not Know Their Purpose [0.0]
本稿では,隠れたサブファンクションの集合である有効効用関数を設計したエージェントについて述べる。
本稿では,設計者の意図の内的近似を合理的に構成する,不愉快なエージェントについて述べる。
論文 参考訳(メタデータ) (2024-02-15T06:15:46Z) - Real Sparks of Artificial Intelligence and the Importance of Inner
Interpretability [0.0]
この論文は、Microsoftのエンジニアによる研究であるGPTのインテリジェンスに関する最も詳細な記事の1つを取り上げている。
私は、よく知られた哲学的理由から、その方法論について論じます。
Inner Interpretability"#にはエキサイティングで新たな分野があります。
内的解釈可能性のアプローチをさらに洗練するために、哲学的概念のいくつかがどのように利用できるかを示します。
論文 参考訳(メタデータ) (2024-01-31T23:22:13Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Melting Pot 2.0 [54.60680281014163]
Melting Potは、マルチエージェント人工知能の開発を容易にするために開発されたツールである。
新たなソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。
Melting Potは、最も多様な相互依存とインセンティブの集合をカバーすることを目指している。
論文 参考訳(メタデータ) (2022-11-24T18:23:28Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Towards Socially Intelligent Agents with Mental State Transition and
Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。
ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。
ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文 参考訳(メタデータ) (2021-03-12T00:06:51Z) - TripleTree: A Versatile Interpretable Representation of Black Box Agents
and their Environments [9.822870889029113]
本稿では,状態空間を凸領域に識別する一般理解に向けて,多目的な第一歩を提案する。
我々は、CART決定木アルゴリズムの新しい変種を用いて、そのような表現を作成する。
予測,可視化,ルールに基づく説明を通じて,ブラックボックスエージェントの実践的理解を促進する方法を示す。
論文 参考訳(メタデータ) (2020-09-10T09:22:27Z) - Probing Emergent Semantics in Predictive Agents via Question Answering [29.123837711842995]
近年の研究では、予測モデリングがエージェントに周囲の知識を豊富に与え、複雑な環境での行動能力を向上させる方法が示されている。
本稿では,そのようなエージェントがモデルを開発する表現をデコードし,理解するための一般的なパラダイムとして,質問応答を提案する。
質問応答デコーダからエージェントへの勾配をバックプロパゲートすることなく、それらの内部状態表現を合成的(英語)質問で探索する。
論文 参考訳(メタデータ) (2020-06-01T15:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。