論文の概要: Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning
Matches Human Performance in Some Hermeneutic Tasks
- arxiv url: http://arxiv.org/abs/2401.15170v2
- Date: Mon, 12 Feb 2024 23:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:30:44.225569
- Title: Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning
Matches Human Performance in Some Hermeneutic Tasks
- Title(参考訳): llmsによるスケーラブルな質的コーディング:いくつかのhermeneuticタスクにおける人間のパフォーマンスにマッチする思考連鎖推論
- Authors: Zackary Okun Dunivin
- Abstract要約: GPT-4は人間と等価な解釈が可能であるのに対して、GPT-3.5はそうではない。
以上の結果から,一部のコードブックでは,現在最先端のLCMが大規模コンテンツ解析に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Qualitative coding, or content analysis, extracts meaning from text to
discern quantitative patterns across a corpus of texts. Recently, advances in
the interpretive abilities of large language models (LLMs) offer potential for
automating the coding process (applying category labels to texts), thereby
enabling human researchers to concentrate on more creative research aspects,
while delegating these interpretive tasks to AI. Our case study comprises a set
of socio-historical codes on dense, paragraph-long passages representative of a
humanistic study. We show that GPT-4 is capable of human-equivalent
interpretations, whereas GPT-3.5 is not. Compared to our human-derived gold
standard, GPT-4 delivers excellent intercoder reliability (Cohen's $\kappa \geq
0.79$) for 3 of 9 codes, and substantial reliability ($\kappa \geq 0.6$) for 8
of 9 codes. In contrast, GPT-3.5 greatly underperforms for all codes
($mean(\kappa) = 0.34$; $max(\kappa) = 0.55$). Importantly, we find that coding
fidelity improves considerably when the LLM is prompted to give rationale
justifying its coding decisions (chain-of-thought reasoning). We present these
and other findings along with a set of best practices for adapting traditional
codebooks for LLMs. Our results indicate that for certain codebooks,
state-of-the-art LLMs are already adept at large-scale content analysis.
Furthermore, they suggest the next generation of models will likely render AI
coding a viable option for a majority of codebooks.
- Abstract(参考訳): 質的コーディング(英: Qualitative coding)は、テキストから意味を抽出し、テキストのコーパス間で定量的なパターンを識別する。
近年、大言語モデル(llm)の解釈能力の進歩により、コーディングプロセスの自動化(カテゴリラベルをテキストに適用)が可能となり、人間研究者はこれらの解釈タスクをaiに委譲しながら、より創造的な研究の側面に集中することができる。
本研究は,人文科学研究を代表とした,密集した段落長通路の社会史的コードからなる。
GPT-4は人間と同等の解釈が可能であるのに対して、GPT-3.5はそうではない。
我々の人間由来のゴールド標準と比較して、GPT-4は9コード中3コードに対して優れたインターコーダ信頼性(コーエンの$\kappa \geq 0.79$)、9コード中8コードに対して相当な信頼性(\kappa \geq 0.6$)を提供する。
対照的に、GPT-3.5はすべてのコード(mean(\kappa) = 0.34$; $max(\kappa) = 0.55$)に対して大幅に性能が低下する。
重要なのは、LCMがコーディング決定を正当化する根拠を与えるように促されたとき、コーディングの忠実さが大幅に改善することです。
従来のコードブックをLLMに適用するためのベストプラクティスと合わせて,これらの知見を紹介する。
以上の結果から,一部のコードブックでは,既存のLCMが大規模コンテンツ解析に有効であることが示唆された。
さらに彼らは、次世代モデルのAIコーディングがコードブックの大部分で実行可能な選択肢になる可能性が高いことを示唆している。
関連論文リスト
- Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
そこで本研究では,コードと書き直された変種との類似性に基づいて,ゼロショット合成符号検出器を提案する。
以上の結果から,既存のテキスト用合成コンテンツ検出装置よりも顕著な向上が見られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Towards Human-Level Text Coding with LLMs: The Case of Fatherhood Roles in Public Policy Documents [19.65846717628022]
大きな言語モデル(LLM)は、より良い結果と少ないプログラミングで自動化を約束します。
本研究では,政治科学の現場で遭遇する典型的複雑度を含む3つのプログラミング課題についてLLMを評価した。
もっとも優れたプロンプト戦略は、人間のプログラマに提供されるような、詳細なコードブックをLLMに提供することにある。
論文 参考訳(メタデータ) (2023-11-20T15:34:45Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LLM-Assisted Content Analysis: Using Large Language Models to Support
Deductive Coding [0.3149883354098941]
大規模言語モデル(LLM)は、自然言語処理や推論タスクを多岐にわたって実行するAIツールである。
本研究では,従来のコンテンツ分析の柔軟性を保ちながら,帰納的符号化に要する時間を削減するため,LLMの使用について検討する。
GPT-3.5は、人間のコーダに匹敵するレベルの合意で、しばしば演能的な符号化を行うことができる。
論文 参考訳(メタデータ) (2023-06-23T20:57:32Z) - Towards Coding Social Science Datasets with Language Models [4.280286557747323]
研究者はしばしば、大規模なテキストのセット(ラベル、注釈など)を人間に頼っている。
特定の種類の人工知能ツール(言語モデル(LM))の最近の進歩は、ソリューションを提供する。
GPT-3は、一般的な人間のコーダの性能と一致し、テキストをコーディングする他の機械学習手法よりも利点があることがわかった。
論文 参考訳(メタデータ) (2023-06-03T19:11:34Z) - Supporting Qualitative Analysis with Large Language Models: Combining
Codebook with GPT-3 for Deductive Coding [45.5690960017762]
本研究は,大言語モデル (LLM) を用いた帰納的符号化支援について検討する。
タスク固有のモデルを訓練する代わりに、事前訓練されたLLMは、素早い学習を通じて微調整することなく、様々なタスクに直接使用することができる。
好奇心駆動型問合せコーディングタスクをケーススタディとして, GPT-3とエキスパートドラフトコードブックを組み合わせることで, 提案手法は有意な一致を達成し, 有能な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T04:52:43Z) - Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。
我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文 参考訳(メタデータ) (2023-03-08T17:15:58Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。