Fugu-MT 論文翻訳(概要): RADIUS: Ranking, Distribution, and Significance - A Comprehensive Alignment Suite for Survey Simulation

論文の概要: RADIUS: Ranking, Distribution, and Significance - A Comprehensive Alignment Suite for Survey Simulation

arxiv url: http://arxiv.org/abs/2603.19002v1
Date: Thu, 19 Mar 2026 15:06:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.217141
Title: RADIUS: Ranking, Distribution, and Significance - A Comprehensive Alignment Suite for Survey Simulation
Title（参考訳）: RADIUS: ランキング, 分布, 重要度 - 総合的なアライメント・スイートによるサーベイ・シミュレーション
Authors: Weronika Łajewska, Paul Missault, George Davidson, Saab Mansour,
Abstract要約: LLMを用いた調査のシミュレーションは、人間のような反応を大規模に生成するための強力な応用として現れつつある。 1) Rankingアライメントと2) DIstribUtionアライメントをキャプチャする総合的な2次元アライメントスイートであるRADIUSを紹介する。
参考スコア（独自算出の注目度）: 8.462141371241794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Simulation of surveys using LLMs is emerging as a powerful application for generating human-like responses at scale. Prior work evaluates survey simulation using metrics borrowed from other domains, which are often ad hoc, fragmented, and non-standardized, leading to results that are difficult to compare. Moreover, existing metrics focus mainly on accuracy or distributional measures, overlooking the critical dimension of ranking alignment. In practice, a simulation can achieve high accuracy while still failing to capture the option most preferred by humans - a distinction that is critical in decision-making applications. We introduce RADIUS, a comprehensive two-dimensional alignment suite for survey simulation that captures: 1) RAnking alignment and 2) DIstribUtion alignment, each complemented by statistical Significance testing. RADIUS highlights the limitations of existing metrics, enables more meaningful evaluation of survey simulation, and provides an open-source implementation for reproducible and comparable assessment.
Abstract（参考訳）: LLMを用いた調査のシミュレーションは、人間のような反応を大規模に生成するための強力な応用として現れつつある。以前の研究では、他のドメインから借用されたメトリクスを使用して調査シミュレーションを評価しており、しばしばアドホックで断片化され、標準化されていないため、比較が難しい結果になる。さらに、既存のメトリクスは主に精度や分布の測定に焦点を合わせ、ランキングアライメントの重要な次元を見下ろしている。実際には、シミュレーションは、人間によって最も好まれる選択肢(意思決定アプリケーションにおいて重要な区別)をキャプチャできないまま、高い精度を達成することができる。調査シミュレーションのための総合的な2次元アライメントスイートRADIUSを紹介します。 1)Rankingアライメントと 2)DIstribUtionアライメントは,統計的意義試験によって補完される。 RADIUSは、既存のメトリクスの限界を強調し、より意味のある調査シミュレーションの評価を可能にし、再現性と同等の評価のためのオープンソース実装を提供する。

関連論文リスト

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文参考訳（メタデータ） (2026-03-01T21:46:27Z)
Large Language Models as Virtual Survey Respondents: Evaluating Sociodemographic Response Generation [18.225151370273093]
本稿では,Large Language Models (LLMs) を用いた仮想調査回答者のシミュレーションを行う。部分属性シミュレーション(PAS)と完全属性シミュレーション(FAS)の2つの新しいシミュレーション設定を導入する。 LLM-S3 (Large Language Model-based Sociodemography Simulation Survey) は4つの社会学領域にまたがる11の現実世界の公開データセットにまたがる総合ベンチマークスイートである。
論文参考訳（メタデータ） (2025-09-08T04:59:00Z)
Mirroring Users: Towards Building Preference-aligned User Simulator with User Feedback in Recommendation [18.40619735445983]
ユーザシミュレーションは、リコメンデータシステム(RS)の開発と評価にますます不可欠である。このアライメントを強化するための巨大な未使用のリソースは、RSに固有の広範なユーザーフィードバックである。本稿では,高度なLLM機能を備えたRSのユーザフィードバックを活用して,高品質なシミュレーションデータを生成する新しいデータ構築フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-25T15:51:24Z)
A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文参考訳（メタデータ） (2024-11-05T11:44:00Z)
Calibrating Over-Parametrized Simulation Models: A Framework via Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文参考訳（メタデータ） (2021-05-27T00:59:29Z)
Deep Importance Sampling based on Regression for Model Inversion and Emulation [0.0]
適応的重要度サンプリング(AIS)フレームワークを回帰型適応的深度サンプリング(RADIS)と呼ぶ。 RADISは、構築されたエミュレータからサンプルを引き出すために、2つ(またはそれ以上)のネストされたISスキームの深いアーキテクチャに基づいている。リモートセンシングモデルインバージョンとエミュレーションにおける実世界の応用は、アプローチの有効性を確認する。
論文参考訳（メタデータ） (2020-10-20T15:12:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。