論文の概要: MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools
- arxiv url: http://arxiv.org/abs/2504.20168v1
- Date: Mon, 28 Apr 2025 18:06:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.624534
- Title: MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools
- Title(参考訳): CATのためのMICE:ツールを用いたキャリブレーションエージェントのモデル内信頼度推定
- Authors: Nishant Subramani, Jason Eisner, Justin Svegliato, Benjamin Van Durme, Yu Su, Sam Thomson,
- Abstract要約: 十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
- 参考スコア(独自算出の注目度): 54.63478102768333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-using agents that act in the world need to be both useful and safe. Well-calibrated model confidences can be used to weigh the risk versus reward of potential actions, but prior work shows that many models are poorly calibrated. Inspired by interpretability literature exploring the internals of models, we propose a novel class of model-internal confidence estimators (MICE) to better assess confidence when calling tools. MICE first decodes from each intermediate layer of the language model using logitLens and then computes similarity scores between each layer's generation and the final output. These features are fed into a learned probabilistic classifier to assess confidence in the decoded output. On the simulated trial and error (STE) tool-calling dataset using Llama3 models, we find that MICE beats or matches the baselines on smoothed expected calibration error. Using MICE confidences to determine whether to call a tool significantly improves over strong baselines on a new metric, expected tool-calling utility. Further experiments show that MICE is sample-efficient, can generalize zero-shot to unseen APIs, and results in higher tool-calling utility in scenarios with varying risk levels. Our code is open source, available at https://github.com/microsoft/mice_for_cats.
- Abstract(参考訳): 世界で活動するツール利用エージェントは、有用かつ安全である必要がある。
十分に校正されたモデルの信頼度は、潜在的な行動のリスクと報酬を測るために使用できるが、以前の研究は、多くのモデルが十分に校正されていないことを示している。
モデルの内部を探索する解釈可能性文献から着想を得たモデル内信頼度推定器(MICE)を提案する。
MICEはまず、logitLensを使用して言語モデルの中間層からデコードし、次に各レイヤの生成と最終的な出力の類似点を計算する。
これらの特徴は、復号された出力の信頼性を評価するために、学習された確率的分類器に入力される。
Llama3モデルを用いた模擬試行錯誤(STE)ツールコールデータセットでは,MICEがスムーズなキャリブレーション誤差に基づいてベースラインに打ち勝つか一致させる。
MICEの信頼性を利用して、ツールを呼び出すかどうかを判断することで、新しいメトリック、期待されるツール呼び出しユーティリティの強力なベースラインよりも大幅に改善される。
さらなる実験により、MICEはサンプル効率が高く、ゼロショットから未知のAPIに一般化でき、その結果、リスクレベルが異なるシナリオにおいて、より高いツール呼び出しユーティリティが実現されることが示された。
私たちのコードはオープンソースで、https://github.com/microsoft/mice_for_cats.comで公開しています。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration [24.739131794947838]
我々は,2つの主要なツール・ユース・フレームワークを持つ3つのデータセット上で,最先端のLarge Language Models (LLM) ファミリーの研究を行う。
本研究は,自信過剰にツールを誤用する傾向にあるLSMのツール使用行動を明らかにする。
我々は、観察された問題を緩和するための新しいアプローチ、textitCALを提案する。
論文 参考訳(メタデータ) (2024-12-11T06:09:12Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Few-Shot Recalibration of Language Models [23.829795148520834]
我々は、任意のスライスからラベルのない例をいくつか取り込んだリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。
我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。
実験により、我々の数発の再校正器は既存の校正方法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-27T06:25:40Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - On the Costs and Benefits of Adopting Lifelong Learning for Software
Analytics -- Empirical Study on Brown Build and Risk Prediction [17.502553991799832]
本稿では,ユビソフトにおける産業用ユースケースにおける生涯学習(LL)の利用について検討する。
LLは、新しいデータを使用して古いモデルを段階的に更新するインクリメンタルラーナを使用して、MLベースのソフトウェア分析ツールを継続的に構築し、メンテナンスするために使用される。
論文 参考訳(メタデータ) (2023-05-16T21:57:16Z) - Useful Confidence Measures: Beyond the Max Score [9.189382034558657]
最大スコアを超える情報に依存するいくつかの信頼度尺度を導出します。
アウト・オブ・ディストリビューション・データに基づいてモデルを評価する場合,信頼度測定値の最大値のみを用いて,信頼度を推定する手法が極めて最適であることを示す。
論文 参考訳(メタデータ) (2022-10-25T14:54:44Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。