Fugu-MT 論文翻訳(概要): Can Large Language Models Replace Human Coders? Introducing ContentBench

論文の概要: Can Large Language Models Replace Human Coders? Introducing ContentBench

arxiv url: http://arxiv.org/abs/2602.19467v1
Date: Mon, 23 Feb 2026 03:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.65901
Title: Can Large Language Models Replace Human Coders? Introducing ContentBench
Title（参考訳）: 大規模言語モデルは人間のプログラマーを置き換えることができるか?ContentBenchの導入
Authors: Michael Haman,
Abstract要約: ローコストな大規模言語モデル(LLM)は、まだ経験的コンテンツ分析の多くを支えている解釈的コーディング作業を引き継ぐことができるだろうか? 本稿では,低コストのLCMがどの程度の契約を達成できるか,同じ解釈的コーディングタスクで何にコストがかかるかを追跡することで,この問題に対処するのに役立つ,公開ベンチマークスイートであるContentBenchを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Can low-cost large language models (LLMs) take over the interpretive coding work that still anchors much of empirical content analysis? This paper introduces ContentBench, a public benchmark suite that helps answer this replacement question by tracking how much agreement low-cost LLMs achieve and what they cost on the same interpretive coding tasks. The suite uses versioned tracks that invite researchers to contribute new benchmark datasets. I report results from the first track, ContentBench-ResearchTalk v1.0: 1,000 synthetic, social-media-style posts about academic research labeled into five categories spanning praise, critique, sarcasm, questions, and procedural remarks. Reference labels are assigned only when three state-of-the-art reasoning models (GPT-5, Gemini 2.5 Pro, and Claude Opus 4.1) agree unanimously, and all final labels are checked by the author as a quality-control audit. Among the 59 evaluated models, the best low-cost LLMs reach roughly 97-99% agreement with these jury labels, far above GPT-3.5 Turbo, the model behind early ChatGPT and the initial wave of LLM-based text annotation. Several top models can code 50,000 posts for only a few dollars, pushing large-scale interpretive coding from a labor bottleneck toward questions of validation, reporting, and governance. At the same time, small open-weight models that run locally still struggle on sarcasm-heavy items (for example, Llama 3.2 3B reaches only 4% agreement on hard-sarcasm). ContentBench is released with data, documentation, and an interactive quiz at contentbench.github.io to support comparable evaluations over time and to invite community extensions.
Abstract（参考訳）: ローコストな大規模言語モデル(LLM)は、まだ経験的コンテンツ分析の多くを支えている解釈的コーディング作業を引き継ぐことができるだろうか? 本稿では,この代替問題に対処するためのベンチマークスイートであるContentBenchを紹介する。このスイートでは、バージョン付きトラックを使用して、研究者が新しいベンチマークデータセットをコントリビュートする。第1トラックであるContentBench-ResearchTalk v1.0:1000の学術研究に関する総合的ソーシャルメディアスタイルの投稿を、賞賛、批判、皮肉、質問、手続き的発言の5つのカテゴリに分類した。参照ラベルは、3つの最先端推論モデル(GPT-5、Gemini 2.5 Pro、Claude Opus 4.1)が一致したときにのみ割り当てられ、全ての最終ラベルが品質管理監査として著者によってチェックされる。 59種類の評価モデルのうち、最高の低コストのLCMは、初期のChatGPTのモデルであるGPT-3.5 Turboよりもはるかに上回る97-99%の合意に達した。いくつかのトップモデルは、わずか数ドルで50,000の投稿をコーディングすることができ、大規模な解釈的コーディングを労働ボトルネックからバリデーション、レポート、ガバナンスといった問題へと押し上げることができる。同時に、局所的に動く小さなオープンウェイトモデルは、まだサルカズムの重いアイテムに苦戦している(例えば、Llama 3.2 3Bはハードサルカズムに関してわずか4%の合意に達している)。 ContentBenchはContentbench.github.ioでデータ、ドキュメント、インタラクティブなクイズとともにリリースされ、時間とともに同等の評価をサポートし、コミュニティ拡張を招待している。

関連論文リスト

Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文参考訳（メタデータ） (2026-01-17T20:32:18Z)
AILINKPREVIEWER: Enhancing Code Reviews with LLM-Powered Link Previews [4.664062055146575]
コードレビューは、開発者が品質と保守性を保証するためにコード変更を評価する、ソフトウェアエンジニアリングにおける重要なプラクティスである。問題と外部リソースへのリンクは、追加のコンテキストを提供するためにプルリクエスト(PR)に含まれることが多い。我々は、タイトル、記述、コメント、リンクボディコンテンツを含むPRメタデータを使用して、PR内のリンクのプレビューを生成するツールであるAIlinkPREVIEWERを紹介する。
論文参考訳（メタデータ） (2025-11-12T11:36:12Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution [0.0580448704422069]
本稿では,Cプログラムの著者帰属に関する最初の体系的研究について述べる。 CodeT5-Authorshipは、オリジナルのCodeT5エンコーダ-デコーダアーキテクチャのエンコーダ層のみを使用する新しいモデルです。本モデルでは,近縁なモデルによって生成されたCプログラムを97.56%の精度で識別する。
論文参考訳（メタデータ） (2025-06-18T19:49:41Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos [18.3012265316413]
本稿では,新しいエンティティレベルの推論評価フレームワークである $textbfF$ine-fine $textbfE$ntity-level を提案する。我々のモデルは、GenAI-Benchが11.8%、MonetBenchが5.5%、トレーニングビデオが3.3kという既存の手法をはるかに上回っている。
論文参考訳（メタデータ） (2025-04-14T16:07:16Z)
LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成テキストペアのデータセットである textbfsf PlagBench を紹介する。 PlagBenchは、きめ細かい自動評価と人間のアノテーションを組み合わせることで検証される。 GPT-3.5 Turbo は GPT-4 Turbo と比較してテキストの複雑さを著しく増大させることなく高品質なパラフレーズや要約を生成できることを示す。
論文参考訳（メタデータ） (2024-06-24T03:29:53Z)
Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks [0.0]
GPT-4は人間と等価な解釈が可能であるのに対して、GPT-3.5はそうではない。以上の結果から,一部のコードブックでは,現在最先端のLCMが大規模コンテンツ解析に有効であることが示唆された。
論文参考訳（メタデータ） (2024-01-26T19:25:43Z)
What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (2023-10-31T17:59:38Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。