Fugu-MT 論文翻訳(概要): What's a Good Prediction? Challenges in evaluating an agent's knowledge

論文の概要: What's a Good Prediction? Challenges in evaluating an agent's knowledge

arxiv url: http://arxiv.org/abs/2001.08823v2
Date: Tue, 13 Apr 2021 23:44:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-07 10:11:51.497813
Title: What's a Good Prediction? Challenges in evaluating an agent's knowledge
Title（参考訳）: 良い予測とは何か? エージェントの知識評価における課題
Authors: Alex Kearney, Anna Koop, Patrick M. Pilarski
Abstract要約: 一般知識の精度と有用性の矛盾を示す。本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。本稿では,その利用による予測評価について初めて考察する。
参考スコア（独自算出の注目度）: 0.9281671380673306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constructing general knowledge by learning task-independent models of the world can help agents solve challenging problems. However, both constructing and evaluating such models remains an open challenge. The most common approaches to evaluating models is to assess their accuracy with respect to observable values. However, the prevailing reliance on estimator accuracy as a proxy for the usefulness of the knowledge has the potential to lead us astray. We demonstrate the conflict between accuracy and usefulness through a series of illustrative examples including both a thought experiment and empirical example in MineCraft, using the General Value Function framework (GVF). Having identified challenges in assessing an agent's knowledge, we propose an alternate evaluation approach that arises continually in the online continual learning setting we recommend evaluation by examining internal learning processes, specifically the relevance of a GVF's features to the prediction task at hand. This paper contributes a first look into evaluation of predictions through their use, an integral component of predictive knowledge which is as of yet unexplored.
Abstract（参考訳）: 世界のタスク非依存モデルを学ぶことで一般的な知識を構築することは、エージェントが困難な問題を解決するのに役立つ。しかし、そのようなモデルの構築と評価は依然としてオープンな課題である。モデルを評価する最も一般的なアプローチは、観測可能な値に対する精度を評価することである。しかし、知識の有用性の指標としての推定精度への信頼は、我々を混乱させる可能性を秘めている。我々は,総合価値関数フレームワーク(GVF)を用いて,MineCraftの思考実験と実証例を含む一連の実証例を通して,精度と有用性の矛盾を実証する。エージェントの知識を評価する上での課題を特定し,オンライン連続学習環境において継続的に発生する代替評価手法を提案する。本稿は,現在未調査である予測知識の不可欠な構成要素として,その利用による予測評価について初めて考察する。

関連論文リスト

On the Measure of a Model: From Intelligence to Generality [0.7561750463371523]
ARC、Ravenにインスパイアされたテスト、Blackbird Taskなどのベンチマークは、大規模言語モデル(LLM)のインテリジェンスを評価するために広く使われている。しかし、インテリジェンスの概念は、安定した定義が欠如しており、質問応答や要約、コーディングといった実践的なタスクのパフォーマンスを予測できない。我々の見解では、評価は抽象的な知性の概念よりも一般性に根ざすべきである。
論文参考訳（メタデータ） (2025-11-14T09:46:48Z)
Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文参考訳（メタデータ） (2025-05-31T19:43:00Z)
Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文参考訳（メタデータ） (2023-12-10T23:13:23Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文参考訳（メタデータ） (2022-08-12T13:29:53Z)
What Should I Know? Using Meta-gradient Descent for Predictive Feature Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文参考訳（メタデータ） (2022-06-13T21:31:06Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
Uncertainty as a Form of Transparency: Measuring, Communicating, and Using Uncertainty [66.17147341354577]
我々は,モデル予測に関連する不確実性を推定し,伝達することにより,相補的な透明性の形式を考えることについて議論する。モデルの不公平性を緩和し、意思決定を強化し、信頼できるシステムを構築するために不確実性がどのように使われるかを説明する。この研究は、機械学習、可視化/HCI、デザイン、意思決定、公平性にまたがる文学から引き出された学際的レビューを構成する。
論文参考訳（メタデータ） (2020-11-15T17:26:14Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。