論文の概要: Towards Coding Social Science Datasets with Language Models
- arxiv url: http://arxiv.org/abs/2306.02177v1
- Date: Sat, 3 Jun 2023 19:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:34:14.239116
- Title: Towards Coding Social Science Datasets with Language Models
- Title(参考訳): 言語モデルを用いた社会科学データセットのコーディングに向けて
- Authors: Christopher Michael Rytting, Taylor Sorensen, Lisa Argyle, Ethan
Busby, Nancy Fulda, Joshua Gubler, David Wingate
- Abstract要約: 研究者はしばしば、大規模なテキストのセット(ラベル、注釈など)を人間に頼っている。
特定の種類の人工知能ツール(言語モデル(LM))の最近の進歩は、ソリューションを提供する。
GPT-3は、一般的な人間のコーダの性能と一致し、テキストをコーディングする他の機械学習手法よりも利点があることがわかった。
- 参考スコア(独自算出の注目度): 4.280286557747323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers often rely on humans to code (label, annotate, etc.) large sets
of texts. This kind of human coding forms an important part of social science
research, yet the coding process is both resource intensive and highly variable
from application to application. In some cases, efforts to automate this
process have achieved human-level accuracies, but to achieve this, these
attempts frequently rely on thousands of hand-labeled training examples, which
makes them inapplicable to small-scale research studies and costly for large
ones. Recent advances in a specific kind of artificial intelligence tool -
language models (LMs) - provide a solution to this problem. Work in computer
science makes it clear that LMs are able to classify text, without the cost (in
financial terms and human effort) of alternative methods. To demonstrate the
possibilities of LMs in this area of political science, we use GPT-3, one of
the most advanced LMs, as a synthetic coder and compare it to human coders. We
find that GPT-3 can match the performance of typical human coders and offers
benefits over other machine learning methods of coding text. We find this
across a variety of domains using very different coding procedures. This
provides exciting evidence that language models can serve as a critical advance
in the coding of open-ended texts in a variety of applications.
- Abstract(参考訳): 研究者はしばしば、大規模なテキストのセット(ラベル、注釈など)を人間に頼っている。
この種の人間のコーディングは社会科学研究の重要な部分を形成するが、コーディングプロセスはリソース集約的で、アプリケーションからアプリケーションへの高度に可変である。
場合によっては、このプロセスを自動化しようとする試みは人間レベルの精度を達成したが、これを達成するためには、何千もの手書きのトレーニング例に頼っていることが多い。
特定の種類の人工知能ツール言語モデル(LM)の最近の進歩は、この問題に対する解決策を提供する。
コンピュータサイエンスにおける作業は、LMが代替手法のコスト(金銭的条件と人的労力)を伴わずに、テキストを分類できることを明確にする。
政治学のこの領域におけるLMの可能性を示すために,最も先進的なLMの一つであるGPT-3を合成コーダとして使用し,人間のコーダと比較した。
GPT-3は、一般的な人間のコーダの性能と一致し、テキストをコーディングする他の機械学習手法よりも利点がある。
異なるコーディング手順を使って、さまざまなドメインにまたがってこれを見つけます。
これは、様々なアプリケーションにおけるオープンエンドテキストのコーディングにおいて、言語モデルが重要な進歩となるというエキサイティングな証拠を提供する。
関連論文リスト
- The why, what, and how of AI-based coding in scientific research [0.0]
生成AI、特に大きな言語モデル(LLM)は、コーディングを直感的な会話に変換する可能性がある。
私たちは3つの重要なレンズを通してAIベースのコーディングを区別します。
コーディングにおけるAIの限界と将来の展望に対処する。
論文 参考訳(メタデータ) (2024-10-03T02:36:30Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning
Matches Human Performance in Some Hermeneutic Tasks [0.0]
GPT-4は人間と等価な解釈が可能であるのに対して、GPT-3.5はそうではない。
以上の結果から,一部のコードブックでは,現在最先端のLCMが大規模コンテンツ解析に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-26T19:25:43Z) - Cheap Learning: Maximising Performance of Language Models for Social
Data Science Using Minimal Data [1.8692054990918079]
近年発展してきた3つの安価な技術について概観する。
後者では、大規模言語モデルのゼロショットプロンプトの特定の事例について概観する。
我々は,すべての技術に対して優れた性能を示し,特に大規模言語モデルのプロンプトが,非常に低コストで高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-22T19:00:11Z) - A Comparative Study of Code Generation using ChatGPT 3.5 across 10
Programming Languages [0.0]
LLM(Large Language Models)は、高度な人工知能(AI)システムである。
本研究では,2022年11月にOpenAIがリリースしたLLMであるChatGPT 3.5の符号化能力について検討する。
コードスニペットを作成する際のモデルのスキルは、10の異なるプログラミング言語と4つの異なるソフトウェアドメインで評価される。
論文 参考訳(メタデータ) (2023-08-08T15:02:32Z) - Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。
我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文 参考訳(メタデータ) (2023-03-08T17:15:58Z) - Chatbots As Fluent Polyglots: Revisiting Breakthrough Code Snippets [0.0]
この研究は、AI駆動のコードアシスタントを使用して、現代技術を形成する影響力のあるコンピュータコードの選択を分析する。
この研究の最初の貢献は、過去50年で最も重要なコードの進歩の半分を調査することであった。
論文 参考訳(メタデータ) (2023-01-05T23:17:17Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。