論文の概要: Questionnaire meets LLM: A Benchmark and Empirical Study of Structural Skills for Understanding Questions and Responses
- arxiv url: http://arxiv.org/abs/2510.26238v1
- Date: Thu, 30 Oct 2025 08:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.70635
- Title: Questionnaire meets LLM: A Benchmark and Empirical Study of Structural Skills for Understanding Questions and Responses
- Title(参考訳): LLM : 質問と回答を理解するための構造スキルのベンチマークと実証的研究
- Authors: Duc-Hai Nguyen, Vijayakumar Nanjappan, Barry O'Sullivan, Hoang D. Nguyen,
- Abstract要約: 大規模言語モデル(LLM)は、オープンエンドテキストよりも数ショットの推論で優れている。
現在の検索および調査分析ツールは、典型的にはワークフロー内の人間のために設計されている。
回答検索,応答数,マルチホップ推論を含む6つの構造的スキルを探索するベンチマークであるQASUを紹介する。
実験により、有効なフォーマットを選択し、迅速な組み合わせを行うことで、最適以下のフォーマットに比べて最大8.8%の精度が向上することが示された。
- 参考スコア(独自算出の注目度): 3.8293581919117123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of people take surveys every day, from market polls and academic studies to medical questionnaires and customer feedback forms. These datasets capture valuable insights, but their scale and structure present a unique challenge for large language models (LLMs), which otherwise excel at few-shot reasoning over open-ended text. Yet, their ability to process questionnaire data or lists of questions crossed with hundreds of respondent rows remains underexplored. Current retrieval and survey analysis tools (e.g., Qualtrics, SPSS, REDCap) are typically designed for humans in the workflow, limiting such data integration with LLM and AI-empowered automation. This gap leaves scientists, surveyors, and everyday users without evidence-based guidance on how to best represent questionnaires for LLM consumption. We address this by introducing QASU (Questionnaire Analysis and Structural Understanding), a benchmark that probes six structural skills, including answer lookup, respondent count, and multi-hop inference, across six serialization formats and multiple prompt strategies. Experiments on contemporary LLMs show that choosing an effective format and prompt combination can improve accuracy by up to 8.8% points compared to suboptimal formats. For specific tasks, carefully adding a lightweight structural hint through self-augmented prompting can yield further improvements of 3-4% points on average. By systematically isolating format and prompting effects, our open source benchmark offers a simple yet versatile foundation for advancing both research and real-world practice in LLM-based questionnaire analysis.
- Abstract(参考訳): 市場調査や学術研究から医療アンケート、顧客からのフィードバックフォームまで、何百万人もの人々が毎日調査を行っている。
これらのデータセットは貴重な洞察を捉えるが、そのスケールと構造は大きな言語モデル(LLM)に固有の課題をもたらしている。
しかし、アンケートデータや数百行の応答行で交わされた質問のリストを処理できる能力については、まだ解明されていない。
現在の検索および調査分析ツール(例えば、Qualtrics、SPSS、REDCap)は、典型的にはワークフロー内の人間のために設計されており、LLMやAIを活用した自動化とのこのようなデータ統合を制限している。
このギャップは、科学者、測量士、そして日々の利用者に、LCM消費に関する質問票の最良の表現方法に関する根拠に基づくガイダンスを残さないまま残されている。
QASU (Questionnaire Analysis and Structure Understanding) は、6つのシリアライズフォーマットと複数のプロンプト戦略にまたがって、回答検索、応答数、マルチホップ推論を含む6つの構造的スキルを探索するベンチマークである。
現代のLLMの実験では、有効なフォーマットと迅速な組み合わせを選択することで、最適以下のフォーマットに比べて最大8.8%の精度が向上することが示された。
特定のタスクに対して、自己拡張プロンプトを通じて軽量な構造的ヒントを慎重に追加することで、平均3.4%のさらなる改善が得られる。
我々のオープンソースベンチマークは,形式を体系的に分離し,効果を推し進めることによって,LLMベースのアンケート分析において,研究と実世界の実践の両方を進めるための,シンプルかつ多目的な基盤を提供する。
関連論文リスト
- Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - FactGuard: Leveraging Multi-Agent Systems to Generate Answerable and Unanswerable Questions for Enhanced Long-Context LLM Extraction [25.00896070082754]
抽出読解システムは、与えられたテキスト内の質問に対する正しい答えを見つけるように設計されている。
永続的な課題は、これらのモデルが、答えられないクエリを確実に認識しながら、質問に答える上で高い精度を維持することである。
マルチエージェント協調フレームワークを基盤とした革新的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T01:45:16Z) - DRS: Deep Question Reformulation With Structured Output [133.24623742929776]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。
DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method to help users in reformulation question。
DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善し,オープンソースモデルの性能も向上することを示した。
論文 参考訳(メタデータ) (2024-11-27T02:20:44Z) - AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses [26.850344968677582]
本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。
また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。
以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T05:22:07Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。