Fugu-MT 論文翻訳(概要): Did You Mean...? Confidence-based Trade-offs in Semantic Parsing

論文の概要: Did You Mean...? Confidence-based Trade-offs in Semantic Parsing

arxiv url: http://arxiv.org/abs/2303.16857v3
Date: Fri, 20 Oct 2023 12:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 12:56:03.001806
Title: Did You Mean...? Confidence-based Trade-offs in Semantic Parsing
Title（参考訳）: あなたは...? セマンティックパーシングにおける信頼に基づくトレードオフ
Authors: Elias Stengel-Eskin and Benjamin Van Durme
Abstract要約: タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
参考スコア（独自算出の注目度）: 52.28988386710333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
Abstract（参考訳）: 調整されたモデルがタスク指向構文解析における共通のトレードオフのバランスにどのように役立つかを説明します。シミュレート・アノテータ・イン・ザ・ループ実験において,信頼度スコアが十分に調整されたことにより,アノテータ負荷とコストのバランスが取れ,少数のインタラクションで精度が向上することを示した。次に,信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上でどのように役立つかを検討する。信頼性に基づくしきい値設定は, 不正な低信頼プログラムの実行回数を大幅に削減できることを示すが, ユーザビリティにはコストがかかる。ユーザビリティと安全性のバランスを良くする DidYouMean システムを提案する。

関連論文リスト

When to Act: Calibrated Confidence for Reliable Human Intention Prediction in Assistive Robotics [0.0]
日常生活活動におけるマルチモーダル次行動予測のための校正確率に基づく安全クリティカルトリガーフレームワークを提案する。ポストホック校正は、予測された信頼性と経験的信頼性を一致させ、精度に影響を与えることなく、およそ1桁の誤校正を減少させる。
論文参考訳（メタデータ） (2026-01-08T14:35:17Z)
BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文参考訳（メタデータ） (2025-10-27T15:58:51Z)
ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。 LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文参考訳（メタデータ） (2025-08-26T09:25:32Z)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳（メタデータ） (2025-08-08T11:11:22Z)
Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文参考訳（メタデータ） (2025-06-04T08:56:24Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。本稿では,LLMキャリブレーションのためのReinforcement Learning (RL) アプローチを提案する。
論文参考訳（メタデータ） (2025-03-04T13:48:50Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。モデルの内部と信頼感の一致を調査する。分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文参考訳（メタデータ） (2024-05-25T15:42:04Z)
When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。品質報酬と秩序保存アライメント報酬機能を統合する。実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-26T09:42:46Z)
Tighter Confidence Bounds for Sequential Kernel Regression [3.683202928838613]
我々は、シーケンシャルカーネル回帰のための新しい信頼境界を確立するために、マーチンゲールテール不等式を使用する。私たちの信頼境界は円錐プログラムを解くことで計算できるが、この素バージョンはすぐに非現実的になる。信頼性境界が既存のものを置き換えると、KernelUCBアルゴリズムはより優れた経験的性能、最悪のパフォーマンス保証、それに匹敵する計算コストが得られます。
論文参考訳（メタデータ） (2024-03-19T13:47:35Z)
U-Trustworthy Models.Reliability, Competence, and Confidence in Decision-Making [0.21756081703275998]
信頼性の正確な数学的定義を$mathcalU$-trustworthinessと呼ぶ。 $mathcalU$-trustworthinessの文脈において、適切にランク付けされたモデルは本質的に$mathcalU$-trustworthyであることが証明される。我々は、信頼度を優先する尺度として、AUCメートル法の採用を提唱する。
論文参考訳（メタデータ） (2024-01-04T04:58:02Z)
A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文参考訳（メタデータ） (2023-10-20T14:41:46Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)
Trust, but Verify: Using Self-Supervised Probing to Improve Trustworthiness [29.320691367586004]
我々は、訓練されたモデルに対する自信の過剰な問題をチェックおよび緩和することのできる、自己教師型探索の新しいアプローチを導入する。既存の信頼性関連手法に対して,プラグイン・アンド・プレイ方式で柔軟に適用可能な,シンプルで効果的なフレームワークを提供する。
論文参考訳（メタデータ） (2023-02-06T08:57:20Z)
Confidence-Calibrated Face and Kinship Verification [8.570969129199467]
検証モデルにより、類似度スコアを任意の顔対に対する信頼スコアに変換することができる効果的な信頼度尺度を導入する。また,実装が容易で,既存の検証モデルにも容易に適用可能な,信頼性校正アプローチであるAngular Scaling(ASC)を提案する。我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度校正ソリューションを提示した。
論文参考訳（メタデータ） (2022-10-25T10:43:46Z)
Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文参考訳（メタデータ） (2020-01-29T00:04:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。