論文の概要: Researchers waste 80% of LLM annotation costs by classifying one text at a time
- arxiv url: http://arxiv.org/abs/2604.03684v1
- Date: Sat, 04 Apr 2026 11:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.721013
- Title: Researchers waste 80% of LLM annotation costs by classifying one text at a time
- Title(参考訳): 研究者は一度に1つのテキストを分類することで、LLMアノテーションのコストの80%を無駄にしている
- Authors: Christian Pipal, Eva-Maria Vogel, Morgan Wack, Frank Esser,
- Abstract要約: 大規模符号化モデル (LLMs) は、社会科学でますます使われている。
しかし、研究者は4つの変数で10万のテキストに対して変数ごとに1つのテキストを分類する。
25のアイテムと変数を1つのプロンプトにスタックすることで、これを4,000のAPIコールに削減できる。
8つのモデルのうち6つは、バッチサイズ100のシングルコードベースラインの2pp以内の精度を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being used for text classification across the social sciences, yet researchers overwhelmingly classify one text per variable per prompt. Coding 100,000 texts on four variables requires 400,000 API calls. Batching 25 items and stacking all variables into a single prompt reduces this to 4,000 calls, cutting token costs by over 80%. Whether this degrades coding quality is unknown. We tested eight production LLMs from four providers on 3,962 expert-coded tweets across four tasks, varying batch size from 1 to 1,000 items and stacking up to 25 coding dimensions per prompt. Six of eight models maintained accuracy within 2 pp of the single-item baseline through batch sizes of 100. Variable stacking with up to 10 dimensions produced results comparable to single-variable coding, with degradation driven by task complexity rather than prompt length. Within this safe operating range, the measurement error from batching and stacking is smaller than typical inter-coder disagreement in the ground-truth data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会科学全体にわたってテキスト分類にますます使われてきているが、研究者はプロンプト毎に1つのテキストを圧倒的に分類している。
4つの変数に10万のテキストをコーディングするには、40万のAPI呼び出しが必要です。
25項目をバッチし、すべての変数を1つのプロンプトにスタックすることで、4000コールに削減され、トークンコストが80%以上削減される。
これが符号化品質を低下させるかどうかは不明である。
4つのプロバイダから,4つのタスクにわたる3,962件のエキスパートコーディングツイート,バッチサイズを1~1,000項目,プロンプト毎に最大25のコーディングディメンションを積み重ねた8つの実運用LSMをテストしました。
8モデルのうち6モデルが100のバッチサイズで1イットムベースラインの2pp以内の精度を維持した。
最大10次元の可変スタック化により、単一変数のコーディングに匹敵する結果が得られた。
この安全な操作範囲内では、バッチ化とスタック化による測定誤差は、地上データにおける通常のコーダ間不一致よりも小さい。
関連論文リスト
- Designing large language model prompts to extract scores from messy text: A shared dataset and challenge [4.090143360215888]
本稿では、1446の短いテキストの共有データセットを紹介し、それぞれがイギリスの1*から4*までの研究品質スコアを記述している。
また、有効なスコアを構成するものや、これらのテキストの正しいスコアの「金の標準」も記述されている。
課題は、Large Language Modelsがこれらのテキストからできるだけ正確にスコアを抽出するプロンプトを設計することである。
論文 参考訳(メタデータ) (2026-01-26T08:55:55Z) - SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文 参考訳(メタデータ) (2025-12-29T05:28:17Z) - TimeStampEval: A Simple LLM Eval and a Little Fuzzy Matching Trick to Improve Search Accuracy [0.0]
TimeStampEvalは、非バーバティムな引用を与えられた長い書き起こしから正確にミリ秒のタイムスタンプを取得するためのベンチマークである。
簡単な2段階法では,推論コストを90%以上削減しながら,検索精度を劇的に向上させる。
モチベーションのユースケースは、議会記録のクリップをAIがホストする動詞のナレーションにまとめる、自動化されたロングフォームポッドキャストである。
論文 参考訳(メタデータ) (2025-10-27T21:54:56Z) - Developer-LLM Conversations: An Empirical Study of Interactions and Generated Code Quality [4.05144752916486]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものになりつつある。
実世界の開発者とLLMの会話のデータセットであるCodeChatを活用しています。
LLMレスポンスは開発者のプロンプトよりもかなり長いことが分かりました。
論文 参考訳(メタデータ) (2025-09-12T16:52:49Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。