論文の概要: The Effectiveness of Bidirectional Generative Patent Language Models
- arxiv url: http://arxiv.org/abs/2211.09690v1
- Date: Sun, 4 Sep 2022 03:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 23:19:10.381314
- Title: The Effectiveness of Bidirectional Generative Patent Language Models
- Title(参考訳): 双方向生成特許言語モデルの有効性
- Authors: Jieh-Sheng Lee
- Abstract要約: 自己完備関数の簡易設計が提案され、有効性を10%以上向上する。
新しい設計では、オートコンプリートの有効性が60%以上に達するため、キーストロークの60%以上がオートコンプリートで節約できる。
鍵となる発見は、同じテキストに対するモデルのオートコンプリートの有効性が、計算がどこから始まっても類似していることである。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative patent language models can assist humans to write patent text more
effectively. The question is how to measure effectiveness from a human-centric
perspective and how to improve effectiveness. In this manuscript, a simplified
design of the autocomplete function is proposed to increase effectiveness by
more than 10%. With the new design, the effectiveness of autocomplete can reach
more than 60%, which means that more than 60% of keystrokes can be saved by
autocomplete. Since writing patent text does not necessarily start from the
beginning to the end, a question is whether the generative model can assist a
user no matter where to start writing. To answer the question, the generative
models in this manuscript are pre-trained with training data in both
directions. The generative models become bidirectional. Since text generation
is bidirectional, the calculation of autocomplete effectiveness can be
bidirectional and starts from anywhere in the text. After thorough experiments,
a key finding is that the autocomplete effectiveness of a model for the same
text remains similar no matter where the calculation starts. The finding
indicates that such bidirectional models can assist a user at a similar level,
no matter where the user starts to write.
- Abstract(参考訳): 生成型特許言語モデルは、人間がより効果的に特許テキストを書くのを助けることができる。
問題は、人間中心の観点から有効性を測定する方法と、有効性を改善する方法である。
本書では,10%以上の有効性を高めるために,自己完備関数の簡易設計を提案する。
新しい設計では、オートコンプリートの有効性が60%以上に達するため、キーストロークの60%以上がオートコンプリートによって節約できる。
特許文書の執筆は必ずしも開始から終了まで開始しないので、生成モデルがどこからでもユーザを支援することができるかどうかが問題となる。
この疑問に答えるために、本書の生成モデルは、両方の方向のトレーニングデータで事前訓練される。
生成モデルは双方向になる。
テキスト生成は双方向であるため、自動完全効率の計算は双方向であり、テキスト中のどこからでも開始できる。
徹底的な実験の後、重要な発見は、同じテキストに対するモデルのオートコンプリートの有効性が、計算がどこから始まっても、類似していることである。
このような双方向モデルは,ユーザがどこに書き始めたとしても,同じレベルでユーザを支援することができる。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Sequential Decision-Making for Inline Text Autocomplete [14.83046358936405]
テキスト入力システムにおけるインラインオートコンプリート提案の改善問題について検討する。
我々は、強化学習を用いて、ターゲットユーザとの繰り返しインタラクションを通じて提案ポリシーを学習する。
論文 参考訳(メタデータ) (2024-03-21T22:33:16Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Smaller Language Models are Better Black-box Machine-Generated Text
Detectors [56.36291277897995]
小型で部分的に訓練されたモデルは、より優れたユニバーサルテキスト検出器である。
検出器とジェネレータが同一データでトレーニングされたかどうかが検出成功にとって重要でないことが判明した。
例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのより大きなモデルであるGPTJ-6BはAUCが0.45である。
論文 参考訳(メタデータ) (2023-05-17T00:09:08Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Evaluating Generative Patent Language Models [1.8275108630751844]
この原稿は、特許ドメインで生成言語モデルを構築することを目的としている。
パースペクティブは、自動補完によって保存できるキーストロークの割合を測定することである。
この写本で構築された最大のモデルは6Bであり、特許領域における最先端の技術である。
論文 参考訳(メタデータ) (2022-06-23T08:58:05Z) - A Model-Agnostic Data Manipulation Method for Persona-based Dialogue
Generation [107.82729587882397]
現在のペルソナベースの対話データセットのスケールアップには費用がかかる。
このタスクの各データサンプルは、従来の対話データよりも複雑である。
本稿では,ペルソナをベースとした対話生成モデルにおいて,モデルに依存しないデータ操作手法を提案する。
論文 参考訳(メタデータ) (2022-04-21T03:49:54Z) - Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文 参考訳(メタデータ) (2022-03-01T11:05:43Z) - Sketch and Refine: Towards Faithful and Informative Table-to-Text
Generation [58.320248632121476]
自己回帰世代と非自己回帰世代(SANA)を組み合わせた新しい2段階法を提案する。
提案手法は,(1)ソーステーブルからキートークンを選択するための自己回帰ポインタネットワークを用いた骨格生成,(2)反復挿入と削除操作によるテキスト生成のための編集ベースの非自己回帰生成モデルを含む。
骨格から厳しい制約を統合することで、非自己回帰モデルはソーステーブル上の生成のカバレッジを改善し、その忠実性を高める。
論文 参考訳(メタデータ) (2021-05-31T08:18:13Z) - AutoMeTS: The Autocomplete for Medical Text Simplification [9.18959130745234]
簡単な英語のウィキペディア文と整列した英語のウィキペディアからなる,新たな並列医療データセットを提案する。
より優れた結果を得るために, 単純化すべき文の追加コンテキストを組み込むことが可能であることを示す。
また、4つのPNLMを組み合わせるアンサンブルモデルを導入し、2.1%の精度で最高の個人モデルより優れています。
論文 参考訳(メタデータ) (2020-10-20T19:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。