論文の概要: Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents
- arxiv url: http://arxiv.org/abs/2305.10383v2
- Date: Thu, 18 May 2023 12:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:26:50.940093
- Title: Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents
- Title(参考訳): 生成言語モデルを用いた大規模テキスト分析:AI特許における公開価値表現の発見を事例として
- Authors: Sergio Pelaez, Gaurav Verma, Barbara Ribeiro, Philip Shapira
- Abstract要約: 本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
- 参考スコア(独自算出の注目度): 2.246222223318928
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Labeling data is essential for training text classifiers but is often
difficult to accomplish accurately, especially for complex and abstract
concepts. Seeking an improved method, this paper employs a novel approach using
a generative language model (GPT-4) to produce labels and rationales for
large-scale text analysis. We apply this approach to the task of discovering
public value expressions in US AI patents. We collect a database comprising
154,934 patent documents using an advanced Boolean query submitted to
InnovationQ+. The results are merged with full patent text from the USPTO,
resulting in 5.4 million sentences. We design a framework for identifying and
labeling public value expressions in these AI patent sentences. A prompt for
GPT-4 is developed which includes definitions, guidelines, examples, and
rationales for text classification. We evaluate the quality of the labels and
rationales produced by GPT-4 using BLEU scores and topic modeling and find that
they are accurate, diverse, and faithful. These rationales also serve as a
chain-of-thought for the model, a transparent mechanism for human verification,
and support for human annotators to overcome cognitive limitations. We conclude
that GPT-4 achieved a high-level of recognition of public value theory from our
framework, which it also uses to discover unseen public value expressions. We
use the labels produced by GPT-4 to train BERT-based classifiers and predict
sentences on the entire database, achieving high F1 scores for the 3-class
(0.85) and 2-class classification (0.91) tasks. We discuss the implications of
our approach for conducting large-scale text analyses with complex and abstract
concepts and suggest that, with careful framework design and interactive human
oversight, generative language models can offer significant advantages in
quality and in reduced time and costs for producing labels and rationales.
- Abstract(参考訳): データのラベリングはテキスト分類器のトレーニングには不可欠であるが、特に複雑で抽象的な概念において、正確に達成することがしばしば困難である。
改良手法として,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと合理性を生成する手法を提案する。
このアプローチを,米国AI特許における公開価値表現の発見に応用する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
結果はUSPTOの完全な特許文書とマージされ、540万の文が得られた。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
GPT-4のプロンプトは、テキスト分類のための定義、ガイドライン、例、合理性を含む。
bleuスコアとトピックモデリングを用いて,gpt-4が生成するラベルの品質と合理性を評価し,正確性,多様性,忠実性を見出す。
これらの理論的根拠は、モデルの連鎖、人間の検証のための透過的なメカニズム、認知的限界を克服するための人間のアノテーションのサポートとしても機能する。
我々は、gpt-4が、我々のフレームワークから高いレベルの公開価値理論の認識を達成していると結論づけた。
GPT-4 で作成したラベルを用いて,BERT ベースの分類器を訓練し,データベース全体の文を予測し,高い F1 スコアを3クラス (0.85) と2クラス (0.91) のタスクに対して達成する。
本稿では,複雑で抽象的な概念を用いて大規模テキスト解析を行う手法の意義について考察し,注意深いフレームワーク設計と対話型人間の監視により,生成言語モデルが品質において有意な利点と,ラベルや合理性の生成に要する時間とコストを削減できることを示す。
関連論文リスト
- FakeNewsGPT4: Advancing Multimodal Fake News Detection through
Knowledge-Augmented LVLMs [50.13829380113614]
本稿では,大規模視覚言語モデル(Large Vision-Language Models)を,操作推論のためのフォージェリ固有の知識で拡張する新しいフレームワークを提案する。
FakeNewsGPT4は、以前の方法よりも優れたクロスドメインパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-04T12:35:09Z) - Interpretable-by-Design Text Classification with Iteratively Generated
Concept Bottleneck [48.7583579950377]
Text Bottleneck Models (TBMs) は、グローバルとローカルの両方の説明を提供する、本質的に解釈可能なテキスト分類フレームワークである。
概念生成と測定の両方にGPT-4を用いた12種類の多様なデータセットにおいて,TBMが確立したブラックボックスベースラインの性能に匹敵することを示す。
論文 参考訳(メタデータ) (2023-10-30T15:41:32Z) - Large Language Models and Control Mechanisms Improve Text Readability of
Biomedical Abstracts [17.008098084175323]
本稿では,生物医学的抽象的単純化作業における最先端の大規模言語モデル(LLM)の能力について検討する。
適用方法は、ドメインファインチューニングとプロンプトベースの学習を含む。
BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。
論文 参考訳(メタデータ) (2023-09-22T22:47:32Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent
Classification [45.168693589731156]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head
Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism
For Multi-Label Text Classification [0.0]
SemEval 2023 Task 4citekiesel:2023は、引数のセットと、各引数に暗黙的に表現される20種類の人間の値を提供する。
特定のラベルとセマンティックコンポーネント間の接続を確立するためのマルチヘッドアテンション機構を提案する。
テストセットではF1スコアが0.533で,リーダボードでは4位にランクインした。
論文 参考訳(メタデータ) (2023-07-11T11:12:06Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Introduction of a novel word embedding approach based on technology
labels extracted from patent data [0.0]
本稿では,人間のラベル付きデータの統計的解析を用いた単語埋め込み手法を提案する。
このアルゴリズムは以前のEQMania UG(eqmania.com)の開発であり、2021年4月までeqalice.comでテストできる。
論文 参考訳(メタデータ) (2021-01-31T10:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。