Fugu-MT 論文翻訳(概要): Uncertainty Quantification for LLM-Based Survey Simulations

論文の概要: Uncertainty Quantification for LLM-Based Survey Simulations

arxiv url: http://arxiv.org/abs/2502.17773v1
Date: Tue, 25 Feb 2025 02:07:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.644385
Title: Uncertainty Quantification for LLM-Based Survey Simulations
Title（参考訳）: LLMに基づくサーベイシミュレーションの不確実性定量化
Authors: Chengpiao Huang, Yuhang Wu, Kaizheng Wang,
Abstract要約: 本研究では, 大規模言語モデル(LLM)からの不確実性定量化のレンズを用いて, シミュレーションされたサーベイ応答の信頼性について検討する。提案手法は, 人工データから人間応答の個体群パラメータの信頼度集合へと変換し, シミュレーションされた個体群と実個体群の分布変化に対処する。
参考スコア（独自算出の注目度）: 9.303339416902995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the reliable use of simulated survey responses from large language models (LLMs) through the lens of uncertainty quantification. Our approach converts synthetic data into confidence sets for population parameters of human responses, addressing the distribution shift between the simulated and real populations. A key innovation lies in determining the optimal number of simulated responses: too many produce overly narrow confidence sets with poor coverage, while too few yield excessively loose estimates. To resolve this, our method adaptively selects the simulation sample size, ensuring valid average-case coverage guarantees. It is broadly applicable to any LLM, irrespective of its fidelity, and any procedure for constructing confidence sets. Additionally, the selected sample size quantifies the degree of misalignment between the LLM and the target human population. We illustrate our method on real datasets and LLMs.
Abstract（参考訳）: 本研究では, 大規模言語モデル(LLM)からの不確実性定量化のレンズを用いて, シミュレーションされたサーベイ応答の信頼性について検討する。提案手法は, 人工データから人間応答の個体群パラメータの信頼度集合へと変換し, シミュレーションされた個体群と実個体群の分布変化に対処する。重要な革新は、シミュレーションされた応答の最適な数を決定することである。これを解決するため,本手法ではサンプルサイズを適応的に選択し,有効平均ケースカバレッジを保証する。任意の LLM に適用できるが、その忠実さに拘らず、信頼集合を構成するためのいかなる手続きにも当てはまる。さらに、選択されたサンプルサイズは、LLMと対象のヒト個体群の誤配の程度を定量化する。本稿では,実際のデータセットとLLMについて述べる。

関連論文リスト

Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses [1.7170969275523118]
大規模言語モデル (LLMs) は、社会科学調査において、人間の被験者のプロキシとしてますます使われている。本稿では,標準調査文脈におけるLCMの応答ロバスト性について検討する。
論文参考訳（メタデータ） (2025-07-09T18:01:50Z)
Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs [14.568210512707603]
我々は、安全でない(有害な)応答を引き起こすのに必要な大規模言語モデル(LLM)世代数を定量化するフレームワークを開発する。我々の重要な革新は、凸最適化問題として定式化された適応型、プロンプトごとのサンプリング戦略を設計することである。
論文参考訳（メタデータ） (2025-06-16T15:21:25Z)
Estimating LLM Consistency: A User Baseline vs Surrogate Metrics [7.902385931726113]
大型言語モデル(LLM)は幻覚を起こしやすく、急激な摂動に敏感である。 LLMの一貫性を推定するためのロジットに基づくアンサンブル法を提案する。
論文参考訳（メタデータ） (2025-05-26T16:53:47Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。プレッシャーの課題は、自信を持って間違った予測をする傾向にある。本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文参考訳（メタデータ） (2024-03-04T21:55:22Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文参考訳（メタデータ） (2023-08-30T17:53:25Z)
Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文参考訳（メタデータ） (2023-06-28T21:11:15Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。