論文の概要: Can Large Language Models Replace Human Coders? Introducing ContentBench
- arxiv url: http://arxiv.org/abs/2602.19467v1
- Date: Mon, 23 Feb 2026 03:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.65901
- Title: Can Large Language Models Replace Human Coders? Introducing ContentBench
- Title(参考訳): 大規模言語モデルは人間のプログラマーを置き換えることができるか?ContentBenchの導入
- Authors: Michael Haman,
- Abstract要約: ローコストな大規模言語モデル(LLM)は、まだ経験的コンテンツ分析の多くを支えている解釈的コーディング作業を引き継ぐことができるだろうか?
本稿では,低コストのLCMがどの程度の契約を達成できるか,同じ解釈的コーディングタスクで何にコストがかかるかを追跡することで,この問題に対処するのに役立つ,公開ベンチマークスイートであるContentBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can low-cost large language models (LLMs) take over the interpretive coding work that still anchors much of empirical content analysis? This paper introduces ContentBench, a public benchmark suite that helps answer this replacement question by tracking how much agreement low-cost LLMs achieve and what they cost on the same interpretive coding tasks. The suite uses versioned tracks that invite researchers to contribute new benchmark datasets. I report results from the first track, ContentBench-ResearchTalk v1.0: 1,000 synthetic, social-media-style posts about academic research labeled into five categories spanning praise, critique, sarcasm, questions, and procedural remarks. Reference labels are assigned only when three state-of-the-art reasoning models (GPT-5, Gemini 2.5 Pro, and Claude Opus 4.1) agree unanimously, and all final labels are checked by the author as a quality-control audit. Among the 59 evaluated models, the best low-cost LLMs reach roughly 97-99% agreement with these jury labels, far above GPT-3.5 Turbo, the model behind early ChatGPT and the initial wave of LLM-based text annotation. Several top models can code 50,000 posts for only a few dollars, pushing large-scale interpretive coding from a labor bottleneck toward questions of validation, reporting, and governance. At the same time, small open-weight models that run locally still struggle on sarcasm-heavy items (for example, Llama 3.2 3B reaches only 4% agreement on hard-sarcasm). ContentBench is released with data, documentation, and an interactive quiz at contentbench.github.io to support comparable evaluations over time and to invite community extensions.
- Abstract(参考訳): ローコストな大規模言語モデル(LLM)は、まだ経験的コンテンツ分析の多くを支えている解釈的コーディング作業を引き継ぐことができるだろうか?
本稿では,この代替問題に対処するためのベンチマークスイートであるContentBenchを紹介する。
このスイートでは、バージョン付きトラックを使用して、研究者が新しいベンチマークデータセットをコントリビュートする。
第1トラックであるContentBench-ResearchTalk v1.0:1000の学術研究に関する総合的ソーシャルメディアスタイルの投稿を、賞賛、批判、皮肉、質問、手続き的発言の5つのカテゴリに分類した。
参照ラベルは、3つの最先端推論モデル(GPT-5、Gemini 2.5 Pro、Claude Opus 4.1)が一致したときにのみ割り当てられ、全ての最終ラベルが品質管理監査として著者によってチェックされる。
59種類の評価モデルのうち、最高の低コストのLCMは、初期のChatGPTのモデルであるGPT-3.5 Turboよりもはるかに上回る97-99%の合意に達した。
いくつかのトップモデルは、わずか数ドルで50,000の投稿をコーディングすることができ、大規模な解釈的コーディングを労働ボトルネックからバリデーション、レポート、ガバナンスといった問題へと押し上げることができる。
同時に、局所的に動く小さなオープンウェイトモデルは、まだサルカズムの重いアイテムに苦戦している(例えば、Llama 3.2 3Bはハードサルカズムに関してわずか4%の合意に達している)。
ContentBenchはContentbench.github.ioでデータ、ドキュメント、インタラクティブなクイズとともにリリースされ、時間とともに同等の評価をサポートし、コミュニティ拡張を招待している。
関連論文リスト
- AILINKPREVIEWER: Enhancing Code Reviews with LLM-Powered Link Previews [4.664062055146575]
コードレビューは、開発者が品質と保守性を保証するためにコード変更を評価する、ソフトウェアエンジニアリングにおける重要なプラクティスである。
問題と外部リソースへのリンクは、追加のコンテキストを提供するためにプルリクエスト(PR)に含まれることが多い。
我々は、タイトル、記述、コメント、リンクボディコンテンツを含むPRメタデータを使用して、PR内のリンクのプレビューを生成するツールであるAIlinkPREVIEWERを紹介する。
論文 参考訳(メタデータ) (2025-11-12T11:36:12Z) - I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution [0.0580448704422069]
本稿では,Cプログラムの著者帰属に関する最初の体系的研究について述べる。
CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する新しいモデルです。
本モデルでは,近縁なモデルによって生成されたCプログラムを97.56%の精度で識別する。
論文 参考訳(メタデータ) (2025-06-18T19:49:41Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos [18.3012265316413]
本稿では,新しいエンティティレベルの推論評価フレームワークである $textbfF$ine-fine $textbfE$ntity-level を提案する。
我々のモデルは、GenAI-Benchが11.8%、MonetBenchが5.5%、トレーニングビデオが3.3kという既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-04-14T16:07:16Z) - PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成テキストペアのデータセットである textbfsf PlagBench を紹介する。
PlagBenchは、きめ細かい自動評価と人間のアノテーションを組み合わせることで検証される。
GPT-3.5 Turbo は GPT-4 Turbo と比較してテキストの複雑さを著しく増大させることなく高品質なパラフレーズや要約を生成できることを示す。
論文 参考訳(メタデータ) (2024-06-24T03:29:53Z) - Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning
Matches Human Performance in Some Hermeneutic Tasks [0.0]
GPT-4は人間と等価な解釈が可能であるのに対して、GPT-3.5はそうではない。
以上の結果から,一部のコードブックでは,現在最先端のLCMが大規模コンテンツ解析に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-26T19:25:43Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。