論文の概要: Polling Latent Opinions: A Method for Computational Sociolinguistics
Using Transformer Language Models
- arxiv url: http://arxiv.org/abs/2204.07483v2
- Date: Tue, 19 Apr 2022 18:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 16:17:43.393065
- Title: Polling Latent Opinions: A Method for Computational Sociolinguistics
Using Transformer Language Models
- Title(参考訳): Polling Latent Opinions:トランスフォーマー言語モデルを用いた計算社会言語学の手法
- Authors: Philip Feldman, Aaron Dant, James R. Foulds, Shemei Pan
- Abstract要約: 我々は,Yelp レビューのより大きなコーパス内で,トランスフォーマー言語モデルの記憶と外挿の能力を用いて,サブグループの言語的振る舞いを学習する。
トレーニングコーパスに特定のキーワードが制限されたり、全く存在しない場合においても、GPTは正しい感情を持つ大量のテキストを正確に生成できることを示す。
- 参考スコア(独自算出の注目度): 4.874780144224057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text analysis of social media for sentiment, topic analysis, and other
analysis depends initially on the selection of keywords and phrases that will
be used to create the research corpora. However, keywords that researchers
choose may occur infrequently, leading to errors that arise from using small
samples. In this paper, we use the capacity for memorization, interpolation,
and extrapolation of Transformer Language Models such as the GPT series to
learn the linguistic behaviors of a subgroup within larger corpora of Yelp
reviews. We then use prompt-based queries to generate synthetic text that can
be analyzed to produce insights into specific opinions held by the populations
that the models were trained on. Once learned, more specific sentiment queries
can be made of the model with high levels of accuracy when compared to
traditional keyword searches. We show that even in cases where a specific
keyphrase is limited or not present at all in the training corpora, the GPT is
able to accurately generate large volumes of text that have the correct
sentiment.
- Abstract(参考訳): 感情、トピック分析、その他の分析のためのソーシャルメディアのテキスト分析は、最初に研究コーパスの作成に使用されるキーワードやフレーズの選択に依存する。
しかし、研究者が選択するキーワードはまれに発生し、小さなサンプルを用いてエラーが発生する。
本稿では,GPTシリーズなどのトランスフォーマー言語モデルの記憶,補間,外挿の能力を用いて,Yelpレビューのより大きなコーパス内でのサブグループの言語的振る舞いを学習する。
次に、プロンプトベースのクエリを使用して合成テキストを生成し、モデルがトレーニングした集団が保持する特定の意見に対する洞察を解析します。
学習すると、従来のキーワード検索と比較して高い精度を持つモデルから、より具体的な感情クエリが作成できる。
訓練用コーパスに特定のキーフレーズが制限されている場合や、全く存在しない場合であっても、gptは正確な感情を持つ大量のテキストを正確に生成できることを示す。
関連論文リスト
- Towards Human Understanding of Paraphrase Types in ChatGPT [7.662751948664846]
アトミック・パラフレーズ・タイプ(APT)は、パラフレーズを異なる言語的変化に分解する。
APTY(Atomic Paraphrase TYpes)は15のアノテーションによる500の文レベルのアノテーションと単語レベルのアノテーションのデータセットである。
以上の結果から,ChatGPTは単純なAPTを生成できるが,複雑な構造に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:35:10Z) - A Fundamental Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
汎用言語モデルとその整列バージョンが与えられた場合、一般的な言語モデルの下では、平均報酬と平均ログライクな文字列の間にトレードオフが存在する。
この問題を形式的に処理し、サンプリングアダプタの選択が、報酬と交換する可能性の選択を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - ChatGPT as a Text Simplification Tool to Remove Bias [0.0]
特定のサブグループに特有の言語信号の存在は、訓練中に言語モデルによって拾うことができる。
テキストの簡易化という形でバイアス緩和の可能性を探る。
論文 参考訳(メタデータ) (2023-05-09T13:10:23Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Corpus-Based Paraphrase Detection Experiments and Review [0.0]
パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約など、多くのアプリケーションにとって重要である。
本稿では,多種多様なコーパスベースモデル,特にディープラーニング(DL)モデルの性能概要とパラフレーズ検出の課題について述べる。
論文 参考訳(メタデータ) (2021-05-31T23:29:24Z) - Text Mining for Processing Interview Data in Computational Social
Science [0.6820436130599382]
我々は、市販のテキスト分析技術を用いて、計算社会科学研究からのインタビューテキストデータを処理する。
局所的クラスタリングと用語的エンリッチメントが,応答の探索と定量化に有用であることがわかった。
我々は社会科学の研究にテキスト分析を使うことを奨励し、特に探索的オープンエンドな研究に力を入れている。
論文 参考訳(メタデータ) (2020-11-28T00:44:35Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文 参考訳(メタデータ) (2020-03-09T15:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。