Fugu-MT 論文翻訳(概要): Large-Scale Text Analysis Using Generative Language Models: A Case Study in Discovering Public Value Expressions in AI Patents

論文の概要: Large-Scale Text Analysis Using Generative Language Models: A Case Study in Discovering Public Value Expressions in AI Patents

arxiv url: http://arxiv.org/abs/2305.10383v2
Date: Thu, 18 May 2023 12:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 10:26:50.940093
Title: Large-Scale Text Analysis Using Generative Language Models: A Case Study in Discovering Public Value Expressions in AI Patents
Title（参考訳）: 生成言語モデルを用いた大規模テキスト分析:AI特許における公開価値表現の発見を事例として
Authors: Sergio Pelaez, Gaurav Verma, Barbara Ribeiro, Philip Shapira
Abstract要約: 本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。 InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
参考スコア（独自算出の注目度）: 2.246222223318928
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Labeling data is essential for training text classifiers but is often difficult to accomplish accurately, especially for complex and abstract concepts. Seeking an improved method, this paper employs a novel approach using a generative language model (GPT-4) to produce labels and rationales for large-scale text analysis. We apply this approach to the task of discovering public value expressions in US AI patents. We collect a database comprising 154,934 patent documents using an advanced Boolean query submitted to InnovationQ+. The results are merged with full patent text from the USPTO, resulting in 5.4 million sentences. We design a framework for identifying and labeling public value expressions in these AI patent sentences. A prompt for GPT-4 is developed which includes definitions, guidelines, examples, and rationales for text classification. We evaluate the quality of the labels and rationales produced by GPT-4 using BLEU scores and topic modeling and find that they are accurate, diverse, and faithful. These rationales also serve as a chain-of-thought for the model, a transparent mechanism for human verification, and support for human annotators to overcome cognitive limitations. We conclude that GPT-4 achieved a high-level of recognition of public value theory from our framework, which it also uses to discover unseen public value expressions. We use the labels produced by GPT-4 to train BERT-based classifiers and predict sentences on the entire database, achieving high F1 scores for the 3-class (0.85) and 2-class classification (0.91) tasks. We discuss the implications of our approach for conducting large-scale text analyses with complex and abstract concepts and suggest that, with careful framework design and interactive human oversight, generative language models can offer significant advantages in quality and in reduced time and costs for producing labels and rationales.
Abstract（参考訳）: データのラベリングはテキスト分類器のトレーニングには不可欠であるが、特に複雑で抽象的な概念において、正確に達成することがしばしば困難である。改良手法として,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと合理性を生成する手法を提案する。このアプローチを,米国AI特許における公開価値表現の発見に応用する。 InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。結果はUSPTOの完全な特許文書とマージされ、540万の文が得られた。我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。 GPT-4のプロンプトは、テキスト分類のための定義、ガイドライン、例、合理性を含む。 bleuスコアとトピックモデリングを用いて,gpt-4が生成するラベルの品質と合理性を評価し,正確性,多様性,忠実性を見出す。これらの理論的根拠は、モデルの連鎖、人間の検証のための透過的なメカニズム、認知的限界を克服するための人間のアノテーションのサポートとしても機能する。我々は、gpt-4が、我々のフレームワークから高いレベルの公開価値理論の認識を達成していると結論づけた。 GPT-4 で作成したラベルを用いて,BERT ベースの分類器を訓練し,データベース全体の文を予測し,高い F1 スコアを3クラス (0.85) と2クラス (0.91) のタスクに対して達成する。本稿では,複雑で抽象的な概念を用いて大規模テキスト解析を行う手法の意義について考察し,注意深いフレームワーク設計と対話型人間の監視により,生成言語モデルが品質において有意な利点と,ラベルや合理性の生成に要する時間とコストを削減できることを示す。

関連論文リスト

Evaluating Named Entity Recognition Models for Russian Cultural News Texts: From BERT to LLM [0.0]
この研究は、1999年から2019年にかけてサンクトペテルブルクで行なわれたイベント発表のコレクションであるSPbLitGuideデータセットを利用している。確立されたトランスフォーマーベースアーキテクチャを含む多種多様なNERモデルの比較評価を行った。この研究は、ロシア語のような形態学的にリッチな言語に適用した場合の現在のNERモデル能力と制限のより深い理解に寄与する。
論文参考訳（メタデータ） (2025-06-03T08:11:16Z)
Text Chunking for Document Classification for Urban System Management using Large Language Models [0.0]
都市システムは複雑なテキストドキュメンテーションを用いて管理され、要求を設定し、構築された環境性能を評価する。本稿では,大規模言語モデル(LLM)を定性的な符号化活動に適用し,資源要求の低減に寄与する。
論文参考訳（メタデータ） (2025-03-31T22:48:30Z)
A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization [0.0]
本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
論文参考訳（メタデータ） (2025-03-13T13:30:54Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
De-jargonizing Science for Journalists with GPT-4: A Pilot Study [3.730699089967391]
このシステムは、ジャーゴンの識別においてかなり高いリコールを達成し、読者のジャーゴンの識別における相対的な違いを保存する。この発見は、科学記者を支援するための生成AIの可能性を強調し、密集した文書を単純化するツールの開発について将来の研究を知らせる。
論文参考訳（メタデータ） (2024-10-15T21:10:01Z)
GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text [1.2699007098398802]
本研究は, 説得の言語に関する文献で同定された22の修辞的, 言語学的特徴を分類した。 WebアプリケーションであるRhetAnnは、そうでなければかなりの精神的な努力を最小限に抑えるように設計されている。注釈付きデータの小さなセットは、生成的大言語モデル(LLM)であるGPT-3.5を微調整し、残りのデータに注釈を付けた。
論文参考訳（メタデータ） (2024-07-16T15:15:39Z)
ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。 BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文参考訳（メタデータ） (2023-10-19T07:39:00Z)
Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文参考訳（メタデータ） (2023-08-10T07:02:24Z)
Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism For Multi-Label Text Classification [0.0]
SemEval 2023 Task 4citekiesel:2023は、引数のセットと、各引数に暗黙的に表現される20種類の人間の値を提供する。特定のラベルとセマンティックコンポーネント間の接続を確立するためのマルチヘッドアテンション機構を提案する。テストセットではF1スコアが0.533で,リーダボードでは4位にランクインした。
論文参考訳（メタデータ） (2023-07-11T11:12:06Z)
Description-Enhanced Label Embedding Contrastive Learning for Text Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文参考訳（メタデータ） (2023-06-15T02:19:34Z)
Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文参考訳（メタデータ） (2023-05-15T06:24:45Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-14T09:10:49Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
Introduction of a novel word embedding approach based on technology labels extracted from patent data [0.0]
本稿では,人間のラベル付きデータの統計的解析を用いた単語埋め込み手法を提案する。このアルゴリズムは以前のEQMania UG(eqmania.com)の開発であり、2021年4月までeqalice.comでテストできる。
論文参考訳（メタデータ） (2021-01-31T10:37:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。