Fugu-MT 論文翻訳(概要): Did You Mean...? Confidence-based Trade-offs in Semantic Parsing

論文の概要: Did You Mean...? Confidence-based Trade-offs in Semantic Parsing

arxiv url: http://arxiv.org/abs/2303.16857v2
Date: Fri, 31 Mar 2023 13:34:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 10:27:29.275399
Title: Did You Mean...? Confidence-based Trade-offs in Semantic Parsing
Title（参考訳）: あなたは...? セマンティックパーシングにおける信頼に基づくトレードオフ
Authors: Elias Stengel-Eskin and Benjamin Van Durme
Abstract要約: タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
参考スコア（独自算出の注目度）: 37.28245521206576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
Abstract（参考訳）: 調整されたモデルがタスク指向構文解析における共通のトレードオフのバランスにどのように役立つかを説明します。シミュレート・アノテータ・イン・ザ・ループ実験において,信頼度スコアが十分に調整されたことにより,アノテータ負荷とコストのバランスが取れ,少数のインタラクションで精度が向上することを示した。次に,信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上でどのように役立つかを検討する。信頼性に基づくしきい値設定は, 不正な低信頼プログラムの実行回数を大幅に削減できることを示すが, ユーザビリティにはコストがかかる。ユーザビリティと安全性のバランスを良くする DidYouMean システムを提案する。

関連論文リスト

Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文参考訳（メタデータ） (2025-06-04T08:56:24Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。本稿では,LLMキャリブレーションのためのReinforcement Learning (RL) アプローチを提案する。
論文参考訳（メタデータ） (2025-03-04T13:48:50Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。モデルの内部と信頼感の一致を調査する。分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文参考訳（メタデータ） (2024-05-25T15:42:04Z)
When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。品質報酬と秩序保存アライメント報酬機能を統合する。実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-26T09:42:46Z)
Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
論文参考訳（メタデータ） (2024-03-19T13:47:35Z)
U-Trustworthy Models.Reliability, Competence, and Confidence in Decision-Making [0.21756081703275998]
信頼性の正確な数学的定義を$mathcalU$-trustworthinessと呼ぶ。 $mathcalU$-trustworthinessの文脈において、適切にランク付けされたモデルは本質的に$mathcalU$-trustworthyであることが証明される。我々は、信頼度を優先する尺度として、AUCメートル法の採用を提唱する。
論文参考訳（メタデータ） (2024-01-04T04:58:02Z)
A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文参考訳（メタデータ） (2023-10-20T14:41:46Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)
Trust, but Verify: Using Self-Supervised Probing to Improve Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文参考訳（メタデータ） (2023-02-06T08:57:20Z)
Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文参考訳（メタデータ） (2022-10-25T10:43:46Z)
Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文参考訳（メタデータ） (2020-01-29T00:04:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。