論文の概要: Introducing HALC: A general pipeline for finding optimal prompting strategies for automated coding with LLMs in the computational social sciences
- arxiv url: http://arxiv.org/abs/2507.21831v1
- Date: Tue, 29 Jul 2025 14:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.454574
- Title: Introducing HALC: A general pipeline for finding optimal prompting strategies for automated coding with LLMs in the computational social sciences
- Title(参考訳): HALCの導入:計算社会科学におけるLLMによる自動コーディングのための最適なプロンプト戦略を見つけるための一般的なパイプライン
- Authors: Andreas Reich, Claudia Thoms, Tobias Schrimpf,
- Abstract要約: 本稿では,任意のコーディングタスクやモデルに対して,最適プロンプトの体系的かつ信頼性の高い構築を可能にするHALC$-$a汎用パイプラインを提案する。
本稿は,異なるプロンプト戦略の有効性,重要な影響要因,および各コーディングタスクとモデルに対する信頼性の高いプロンプトの同定に関する知見を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are seeing widespread use for task automation, including automated coding in the social sciences. However, even though researchers have proposed different prompting strategies, their effectiveness varies across LLMs and tasks. Often trial and error practices are still widespread. We propose HALC$-$a general pipeline that allows for the systematic and reliable construction of optimal prompts for any given coding task and model, permitting the integration of any prompting strategy deemed relevant. To investigate LLM coding and validate our pipeline, we sent a total of 1,512 individual prompts to our local LLMs in over two million requests. We test prompting strategies and LLM task performance based on few expert codings (ground truth). When compared to these expert codings, we find prompts that code reliably for single variables (${\alpha}$climate = .76; ${\alpha}$movement = .78) and across two variables (${\alpha}$climate = .71; ${\alpha}$movement = .74) using the LLM Mistral NeMo. Our prompting strategies are set up in a way that aligns the LLM to our codebook$-$we are not optimizing our codebook for LLM friendliness. Our paper provides insights into the effectiveness of different prompting strategies, crucial influencing factors, and the identification of reliable prompts for each coding task and model.
- Abstract(参考訳): LLMは、社会科学における自動化コーディングを含むタスク自動化に広く利用されている。
しかし、研究者は異なるプロンプト戦略を提案しているが、その効果はLSMやタスクによって異なる。
多くの場合、試行錯誤は広く行われている。
HALC$-$aの汎用パイプラインを提案し、任意のコーディングタスクやモデルに対して最適なプロンプトの体系的かつ信頼性の高い構築を可能にし、関連すると考えられる任意のプロンプト戦略の統合を可能にする。
LLMのコーディングを調査し、パイプラインを検証するために、私たちは合計1,512個のプロンプトを、200万以上のリクエストでローカルLLMに送信しました。
プロンプト戦略とLLMタスク性能を,少数の専門家によるコーディング(地上真実)に基づいて検証する。
これらの専門家のコーディングと比較すると、単一変数({\alpha}$climate = .76; ${\alpha}$movement = .78)と2変数({\alpha}$climate = .71; ${\alpha}$movement = .74)に対して、LLM Mistral NeMoを用いて、コードが確実に動作するというプロンプトが見つかる。
私たちのプロンプト戦略は、LLMをコードブックに合わせる方法で設定されます。
本稿は,異なるプロンプト戦略の有効性,重要な影響要因,および各コーディングタスクとモデルに対する信頼性の高いプロンプトの同定に関する知見を提供する。
関連論文リスト
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - The Prompt Alchemist: Automated LLM-Tailored Prompt Optimization for Test Case Generation [17.064672221710307]
大きな言語モデル(LLM)は、与えられたソースコードに対して有用なテストケースを生成することができる。
現存する作品は、主に人書きの平易なプロンプトに依存している。
論文 参考訳(メタデータ) (2025-01-02T16:30:05Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - A Prompt Learning Framework for Source Code Summarization [19.24919436211323]
本稿では,PromptCSと呼ばれるコード要約のための効果的なプロンプト学習フレームワークを提案する。
PromptCSはプロンプトエージェントを訓練し、コード要約において大きな言語モデルの可能性を解き放つために連続的なプロンプトを生成する。
論文 参考訳(メタデータ) (2023-12-26T14:37:55Z) - Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code [11.194047962236793]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。
乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。
単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文 参考訳(メタデータ) (2023-12-22T17:29:08Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。