論文の概要: Transparent Reference-free Automated Evaluation of Open-Ended User Survey Responses
- arxiv url: http://arxiv.org/abs/2510.06242v1
- Date: Fri, 03 Oct 2025 08:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.050555
- Title: Transparent Reference-free Automated Evaluation of Open-Ended User Survey Responses
- Title(参考訳): オープンエンドユーザサーベイ応答の透過的参照フリー自動評価
- Authors: Subin An, Yugyeong Ji, Junyoung Kim, Heejin Kook, Yang Lu, Josh Seltzer,
- Abstract要約: オープンな調査回答は、マーケティング研究に貴重な洞察を与えます。
品質の低い回答は、手動フィルタリングの研究者に負担を与えるだけでなく、誤った結論をもたらすリスクも負う。
そこで本研究では,ヒトのサーベイ応答に特化して設計された2段階評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.295969279816647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-ended survey responses provide valuable insights in marketing research, but low-quality responses not only burden researchers with manual filtering but also risk leading to misleading conclusions, underscoring the need for effective evaluation. Existing automatic evaluation methods target LLM-generated text and inadequately assess human-written responses with their distinct characteristics. To address such characteristics, we propose a two-stage evaluation framework specifically designed for human survey responses. First, gibberish filtering removes nonsensical responses. Then, three dimensions-effort, relevance, and completeness-are evaluated using LLM capabilities, grounded in empirical analysis of real-world survey data. Validation on English and Korean datasets shows that our framework not only outperforms existing metrics but also demonstrates high practical applicability for real-world applications such as response quality prediction and response rejection, showing strong correlations with expert assessment.
- Abstract(参考訳): オープン・エンド・サーベイ・レスポンスはマーケティング研究において貴重な洞察を提供するが、低品質な回答は手動フィルタリングの研究者に負担を与えるだけでなく、誤った結論を導き、効果的な評価の必要性を強調している。
既存の自動評価手法は, LLM 生成テキストを対象とし, 人文応答をその特徴で不適切に評価する。
このような特徴に対処するために,人間の調査応答に特化して設計された2段階評価フレームワークを提案する。
まず、ジベリッシュフィルタリングは非感覚的な反応を除去する。
そして, 実世界調査データの実証分析に基づいて, LLM機能を用いて, 3次元の作業性, 妥当性, 完全性を評価した。
英語と韓国のデータセットに対する検証は,我々のフレームワークが既存の指標を上回るだけでなく,応答品質予測や応答拒否といった現実の応用に高い実用性を示し,専門家評価と強い相関を示すことを示している。
関連論文リスト
- Analysis of instruction-based LLMs' capabilities to score and judge text-input problems in an academic setting [0.7699714865575188]
LLM(Large Language Model)は、LLM-as-a-JudgeやLLMの微調整といった手法によって研究される評価器として機能する。
本稿では,3つのモデルを持つ高校生のコンピュータ科学に関する110の回答をカスタムデータセットで検証した5つの評価システムを提案する。
平均絶対偏差 (0.945) と最低根平均正方偏差 (1.214) を人的評価と比較すると, 基準支援評価は見識的, 完全評価とともに公正スコアを提供する。
論文 参考訳(メタデータ) (2025-09-25T10:26:23Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - EvalAgent: Discovering Implicit Evaluation Criteria from the Web [82.82096383262068]
EvalAgentは、ニュアンスとタスク固有の基準を自動的に発見するように設計されたフレームワークである。
EvalAgentは、さまざまな長期評価基準を提案するために、専門家が作成したオンラインガイダンスをマイニングしている。
我々の実験では、EvalAgentが生み出す基準は暗黙的だが具体的であることが示されている。
論文 参考訳(メタデータ) (2025-04-21T16:43:50Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Self-Improving Customer Review Response Generation Based on LLMs [1.9274286238176854]
SCRABLEは、自己最適化プロンプトによって自己向上する、適応的な顧客レビュー応答自動化である。
顧客レビュー領域で発生する応答の質を評価するために,人間評価者の役割を模倣する自動スコアリング機構を導入する。
論文 参考訳(メタデータ) (2024-05-06T20:50:17Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。