論文の概要: Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents
- arxiv url: http://arxiv.org/abs/2305.10383v2
- Date: Thu, 18 May 2023 12:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:26:50.940093
- Title: Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents
- Title(参考訳): 生成言語モデルを用いた大規模テキスト分析:AI特許における公開価値表現の発見を事例として
- Authors: Sergio Pelaez, Gaurav Verma, Barbara Ribeiro, Philip Shapira
- Abstract要約: 本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
- 参考スコア(独自算出の注目度): 2.246222223318928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Labeling data is essential for training text classifiers but is often
difficult to accomplish accurately, especially for complex and abstract
concepts. Seeking an improved method, this paper employs a novel approach using
a generative language model (GPT-4) to produce labels and rationales for
large-scale text analysis. We apply this approach to the task of discovering
public value expressions in US AI patents. We collect a database comprising
154,934 patent documents using an advanced Boolean query submitted to
InnovationQ+. The results are merged with full patent text from the USPTO,
resulting in 5.4 million sentences. We design a framework for identifying and
labeling public value expressions in these AI patent sentences. A prompt for
GPT-4 is developed which includes definitions, guidelines, examples, and
rationales for text classification. We evaluate the quality of the labels and
rationales produced by GPT-4 using BLEU scores and topic modeling and find that
they are accurate, diverse, and faithful. These rationales also serve as a
chain-of-thought for the model, a transparent mechanism for human verification,
and support for human annotators to overcome cognitive limitations. We conclude
that GPT-4 achieved a high-level of recognition of public value theory from our
framework, which it also uses to discover unseen public value expressions. We
use the labels produced by GPT-4 to train BERT-based classifiers and predict
sentences on the entire database, achieving high F1 scores for the 3-class
(0.85) and 2-class classification (0.91) tasks. We discuss the implications of
our approach for conducting large-scale text analyses with complex and abstract
concepts and suggest that, with careful framework design and interactive human
oversight, generative language models can offer significant advantages in
quality and in reduced time and costs for producing labels and rationales.
- Abstract(参考訳): データのラベリングはテキスト分類器のトレーニングには不可欠であるが、特に複雑で抽象的な概念において、正確に達成することがしばしば困難である。
改良手法として,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと合理性を生成する手法を提案する。
このアプローチを,米国AI特許における公開価値表現の発見に応用する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
結果はUSPTOの完全な特許文書とマージされ、540万の文が得られた。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
GPT-4のプロンプトは、テキスト分類のための定義、ガイドライン、例、合理性を含む。
bleuスコアとトピックモデリングを用いて,gpt-4が生成するラベルの品質と合理性を評価し,正確性,多様性,忠実性を見出す。
これらの理論的根拠は、モデルの連鎖、人間の検証のための透過的なメカニズム、認知的限界を克服するための人間のアノテーションのサポートとしても機能する。
我々は、gpt-4が、我々のフレームワークから高いレベルの公開価値理論の認識を達成していると結論づけた。
GPT-4 で作成したラベルを用いて,BERT ベースの分類器を訓練し,データベース全体の文を予測し,高い F1 スコアを3クラス (0.85) と2クラス (0.91) のタスクに対して達成する。
本稿では,複雑で抽象的な概念を用いて大規模テキスト解析を行う手法の意義について考察し,注意深いフレームワーク設計と対話型人間の監視により,生成言語モデルが品質において有意な利点と,ラベルや合理性の生成に要する時間とコストを削減できることを示す。
関連論文リスト
- De-jargonizing Science for Journalists with GPT-4: A Pilot Study [3.730699089967391]
このシステムは、ジャーゴンの識別においてかなり高いリコールを達成し、読者のジャーゴンの識別における相対的な違いを保存する。
この発見は、科学記者を支援するための生成AIの可能性を強調し、密集した文書を単純化するツールの開発について将来の研究を知らせる。
論文 参考訳(メタデータ) (2024-10-15T21:10:01Z) - GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text [1.2699007098398802]
本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。
WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。
注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
論文 参考訳(メタデータ) (2024-07-16T15:15:39Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head
Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism
For Multi-Label Text Classification [0.0]
SemEval 2023 Task 4citekiesel:2023は、引数のセットと、各引数に暗黙的に表現される20種類の人間の値を提供する。
特定のラベルとセマンティックコンポーネント間の接続を確立するためのマルチヘッドアテンション機構を提案する。
テストセットではF1スコアが0.533で,リーダボードでは4位にランクインした。
論文 参考訳(メタデータ) (2023-07-11T11:12:06Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Introduction of a novel word embedding approach based on technology
labels extracted from patent data [0.0]
本稿では,人間のラベル付きデータの統計的解析を用いた単語埋め込み手法を提案する。
このアルゴリズムは以前のEQMania UG(eqmania.com)の開発であり、2021年4月までeqalice.comでテストできる。
論文 参考訳(メタデータ) (2021-01-31T10:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。