Fugu-MT 論文翻訳(概要): Adaptive Budget Allocation in LLM-Augmented Surveys

論文の概要: Adaptive Budget Allocation in LLM-Augmented Surveys

arxiv url: http://arxiv.org/abs/2604.12497v1
Date: Tue, 14 Apr 2026 09:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.372259
Title: Adaptive Budget Allocation in LLM-Augmented Surveys
Title（参考訳）: LLM増設調査における適応的予算配分
Authors: Zikun Ye, Jiameng Lyu, Rui Tao,
Abstract要約: 大規模言語モデル(LLM)は低コストで調査応答を生成することができるが、信頼性は質問によって大きく異なる。本稿では,人間の回答を同時に収集しながら,どの質問がLLMにとって最も難しいかを学習する適応的アロケーションアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 4.998402019776929
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) can generate survey responses at low cost, but their reliability varies substantially across questions and is unknown before data collection. Deploying LLMs in surveys still requires costly human responses for verification and correction. How should a limited human-labeling budget be allocated across questions in real time? We propose an adaptive allocation algorithm that learns which questions are hardest for the LLM while simultaneously collecting human responses. Each human label serves a dual role: it improves the estimate for that question and reveals how well the LLM predicts human responses on it. The algorithm directs more budget to questions where the LLM is least reliable, without requiring any prior knowledge of question-level LLM accuracy. We prove that the allocation gap relative to the best possible allocation vanishes as the budget grows, and validate the approach on both synthetic data and a real survey dataset with 68 questions and over 2000 respondents. On real survey data, the standard practice of allocating human labels uniformly across questions wastes 10--12% of the budget relative to the optimal; our algorithm reduces this waste to 2--6%, and the advantage grows as questions become more heterogeneous in LLM prediction quality. The algorithm achieves the same estimation quality as traditional uniform sampling with fewer human samples, requires no pilot study, and is backed by formal performance guarantees validated on real survey data. More broadly, the framework applies whenever scarce human oversight must be allocated across tasks where LLM reliability is unknown.
Abstract（参考訳）: 大規模言語モデル(LLM)は低コストでサーベイ応答を生成できるが、その信頼性は質問によって大きく異なり、データ収集前に不明である。調査にLLMを配置するには、検証と修正に費用がかかる。限定的な人間ラベルの予算を、どのようにしてリアルタイムで質問に割り当てるべきか? 本稿では,人間の回答を同時に収集しながら,どの質問がLLMにとって最も難しいかを学習する適応的アロケーションアルゴリズムを提案する。それぞれの人間ラベルは二重の役割を担い、その質問の見積もりを改善し、LLMが人間の反応をいかに正確に予測するかを明らかにする。このアルゴリズムは、質問レベルのLSMの精度に関する事前の知識を必要とせず、LSMの信頼性が低い問題により多くの予算を向ける。本研究は,予算の増大に伴い,最適なアロケーションに対するアロケーションギャップがなくなることを証明し,68の質問と2000以上の回答者による実際のサーベイデータセットと合成データの両方によるアプローチの有効性を検証した。実際の調査データでは,質問に対して一様にラベルを割り当てる標準的な慣行は,最適な予算の10～12%を無駄にし,この無駄を2～6%に減らし,質問がLLM予測品質に不均一になるにつれて優位性は増大する。このアルゴリズムは、人間のサンプルが少ない従来の均一サンプリングと同じ評価品質を達成し、パイロットスタディを必要とせず、実際の調査データで検証された正式な性能保証によって裏付けられている。より広範に、このフレームワークは、LLMの信頼性が不明なタスクに対して、人間の監視が不足している場合にいつでも適用されます。

関連論文リスト

Llms, Virtual Users, and Bias: Predicting Any Survey Question Without Human Data [0.0]
大言語モデル(LLM)を使用して、調査質問に答える仮想人口を作成します。 GPT-4o, GPT-3.5, Claude 3.5-Sonnet, そしてLlama と Mistral モデルの性能を従来のランダムフォレストアルゴリズムと比較して評価した。
論文参考訳（メタデータ） (2025-03-11T16:27:20Z)
Uncertainty Quantification for LLM-Based Survey Simulations [9.303339416902995]
本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文参考訳（メタデータ） (2025-02-25T02:07:29Z)
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文参考訳（メタデータ） (2025-02-10T21:59:27Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help? [20.998805709422292]
テストコレクションは、研究者が素早く簡単にランキングアルゴリズムを評価することができる情報検索ツールである。より安価な代替手段として、近年の研究では、人間のアセスメントを完全に置き換えるために大きな言語モデル(LLM)が提案されている。 LARAは、手動アノテーションとLLMアノテーションのバランスをとる効果的な方法であり、低予算でもリッチで信頼性の高いテストコレクションを構築するのに役立つ。
論文参考訳（メタデータ） (2024-11-11T11:17:35Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis [18.44272589315175]
高品質で高コストな人的データと、低品質で実質的に安価なLDM生成データとのトレードオフのバランスをとる方法を示す。様々な予算レベルで実施した実験により,人間とLLM生成データを組み合わせた最適コスト効率が得られた。
論文参考訳（メタデータ） (2024-10-09T05:15:13Z)
RetrievalQA: Assessing Adaptive Retrieval-Augmented Generation for Short-form Open-Domain Question Answering [42.66223628527439]
アダプティブ検索拡張生成(ARAG)は、不特定に検索するのではなく、クエリに対する検索の必要性を動的に決定することを目的としている。この研究は、新しい世界とロングテール知識をカバーする1,271の短い形式の質問を含む、RetrievalQAというベンチマークを提示する。
論文参考訳（メタデータ） (2024-02-26T09:59:04Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。