Fugu-MT 論文翻訳(概要): AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation

論文の概要: AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation

arxiv url: http://arxiv.org/abs/2506.14634v2
Date: Wed, 18 Jun 2025 09:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 13:10:45.384223
Title: AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation
Title（参考訳）: ドイツにおける大規模言語モデルを用いた調査モチベーションに関するオープンエンドサーベイ応答
Authors: Leah von der Heyde, Anna-Carolina Haensch, Bernd Weiß, Jessica Daikeler,
Abstract要約: 本研究は,他の文脈におけるオープンエンドサーベイ応答の符号化に,LLMがどの程度の精度で利用できるかを検討する。我々は、最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家による符号化を用いてLLMの性能を評価する。本研究は, LLMを効率的に, 正確に, 確実に活用できる環境研究の進展に寄与する。
参考スコア（独自算出の注目度）: 0.8437187555622164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent development and wider accessibility of LLMs have spurred discussions about how they can be used in survey research, including classifying open-ended survey responses. Due to their linguistic capacities, it is possible that LLMs are an efficient alternative to time-consuming manual coding and the pre-training of supervised machine learning models. As most existing research on this topic has focused on English-language responses relating to non-complex topics or on single LLMs, it is unclear whether its findings generalize and how the quality of these classifications compares to established methods. In this study, we investigate to what extent different LLMs can be used to code open-ended survey responses in other contexts, using German data on reasons for survey participation as an example. We compare several state-of-the-art LLMs and several prompting approaches, and evaluate the LLMs' performance by using human expert codings. Overall performance differs greatly between LLMs, and only a fine-tuned LLM achieves satisfactory levels of predictive performance. Performance differences between prompting approaches are conditional on the LLM used. Finally, LLMs' unequal classification performance across different categories of reasons for survey participation results in different categorical distributions when not using fine-tuning. We discuss the implications of these findings, both for methodological research on coding open-ended responses and for their substantive analysis, and for practitioners processing or substantively analyzing such data. Finally, we highlight the many trade-offs researchers need to consider when choosing automated methods for open-ended response classification in the age of LLMs. In doing so, our study contributes to the growing body of research about the conditions under which LLMs can be efficiently, accurately, and reliably leveraged in survey research.
Abstract（参考訳）: LLMの最近の開発とより広範なアクセシビリティは、オープンエンド調査の回答の分類など、調査研究でどのように使用できるかについての議論を喚起している。言語能力のため、LLMは時間を要する手動コーディングや教師付き機械学習モデルの事前学習に有効な代替手段である可能性がある。このトピックに関する既存の研究の多くは、非複雑なトピックや単一LLMに関する英語対応に重点を置いているため、その発見が一般化し、それらの分類の質が確立された方法とどのように比較されるかは定かではない。本研究では,調査参加の理由に関するドイツ語データを用いて,他の文脈における調査回答のコーディングに異なるLSMをどの程度利用することができるかを検討する。我々は、最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家による符号化を用いてLLMの性能を評価する。総合的な性能はLLMとは大きく異なり、微調整されたLLMだけが良好な予測性能を達成する。プロンプトアプローチ間の性能差は、使用するLLM上で条件付きである。最後に, LLMsの不等分類性能は, 微調整を行わない場合の分類的分布が異なるため, 調査参加の理由によって異なる。本研究の目的は,オープンエンド応答の符号化と実体解析の方法論的研究と,そのようなデータ処理や実体解析の実践者への影響について考察することである。最後に、LLMの時代において、オープンエンド応答分類のための自動手法を選択する際に、研究者が考慮すべき多くのトレードオフを強調した。そこで本研究では,LLMを効率よく,正確に,かつ確実に活用できる環境に関する研究の展開に寄与する。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。系統的な文献レビューのためのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-03-16T05:52:18Z)
Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-28T20:37:57Z)
EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文参考訳（メタデータ） (2023-12-13T11:02:19Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。