論文の概要: Does BERT Learn as Humans Perceive? Understanding Linguistic Styles
through Lexica
- arxiv url: http://arxiv.org/abs/2109.02738v1
- Date: Mon, 6 Sep 2021 21:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 01:53:24.279610
- Title: Does BERT Learn as Humans Perceive? Understanding Linguistic Styles
through Lexica
- Title(参考訳): BERTは人間として学ぶか?
レキシカによる言語スタイルの理解
- Authors: Shirley Anugrah Hayati, Dongyeop Kang, Lyle Ungar
- Abstract要約: 人間の知覚と機械語の重要性という2つのレンズをまたいだスタイルにおける語彙の使用状況について検討する。
群衆の労働者は、テキストで代表的な単語を強調し、テキストが以下のスタイルを持っていると思わせる。
これらの単語ラベルと、BERTのような人気の高い微調整スタイル分類器から派生した単語重要度を比較した。
- 参考スコア(独自算出の注目度): 13.7929811013458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People convey their intention and attitude through linguistic styles of the
text that they write. In this study, we investigate lexicon usages across
styles throughout two lenses: human perception and machine word importance,
since words differ in the strength of the stylistic cues that they provide. To
collect labels of human perception, we curate a new dataset, Hummingbird, on
top of benchmarking style datasets. We have crowd workers highlight the
representative words in the text that makes them think the text has the
following styles: politeness, sentiment, offensiveness, and five emotion types.
We then compare these human word labels with word importance derived from a
popular fine-tuned style classifier like BERT. Our results show that the BERT
often finds content words not relevant to the target style as important words
used in style prediction, but humans do not perceive the same way even though
for some styles (e.g., positive sentiment and joy) human- and
machine-identified words share significant overlap for some styles.
- Abstract(参考訳): 人々は、書いたテキストの言語スタイルを通じて、自分の意図と態度を伝えます。
本研究では,人間の知覚と機械語の重要性という2つのレンズをまたいだスタイル間の語彙使用について検討する。
人間の知覚のラベルを収集するために、ベンチマークスタイルのデータセットの上に新しいデータセットhummingbirdをキュレーションします。
群衆の労働者はテキストで代表的な言葉を強調し、テキストには丁寧さ、感情、攻撃性、そして5つの感情タイプがあると考えている。
次に、これらの単語ラベルと、BERTのような人気の高い微調整スタイル分類器からの単語重要度を比較する。
以上の結果から, BERTは, 対象のスタイルに関連のない内容語を, スタイル予測において重要な単語とみなすことが多いが, 人間のスタイル(肯定的な感情や喜び) や人間や機械で特定された単語は, 何らかのスタイルにおいて顕著に重複しているにもかかわらず, 人間は同じように認識しないことがわかった。
関連論文リスト
- StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples [48.44036251656947]
スタイル表現は、内容に関係なく、類似した書体スタイルのテキストを密に埋め込み、異なる書体スタイルのテキストを遠くに埋め込むことを目的としている。
より強力なコンテンツに依存しないスタイル埋め込みをトレーニングするための新しいアプローチであるStyleDistanceを紹介する。
論文 参考訳(メタデータ) (2024-10-16T17:25:25Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Audience-Centric Natural Language Generation via Style Infusion [5.6732899077715375]
本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,新しいスタイル注入の課題を提案する。
限定的な人間の判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化する。
我々の注入アプローチは、ジェネリックテキストプロンプトを用いた魅力的なスタイル化された例を生成することができる。
論文 参考訳(メタデータ) (2023-01-24T19:57:50Z) - Representing Affect Information in Word Embeddings [5.378735006566249]
大規模ニューラルネットワークで事前学習した単語の埋め込みにおいて、単語の感情の意味がコード化されているかどうかを検討した。
埋め込みは静的あるいは文脈的に変化し、事前学習と微調整の段階で特定の情報にどの程度影響するかが優先された。
論文 参考訳(メタデータ) (2022-09-21T18:16:33Z) - Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans
vs. BERT [64.40111510974957]
英語における主語数合意に意味が干渉するかどうかを検証する。
意味的によく形づくられた、意味のないアイテムを生成します。
BERTと人間はどちらも、セマンティックな操作に敏感である。
論文 参考訳(メタデータ) (2022-09-21T17:57:23Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Style, Content, and the Success of Ideas [0.0]
我々は、内容が全くない「and」や「the」や「on」といった、スタイルに結びついたユニークな単語のクラスに焦点を当てる。
様々な分野の3万件近い記事の自然言語処理では、関数語が引用に対する言語の影響の13~27%を説明できることがわかった。
論文 参考訳(メタデータ) (2022-01-10T05:53:26Z) - From Theories on Styles to their Transfer in Text: Bridging the Gap with
a Hierarchical Survey [10.822011920177408]
スタイル転送は、既存のテキストを書き換え、望ましいスタイル特性を示すパラフレーズを作成することを目的としている。
少数の調査では、この分野の方法論的な概要が示されているが、研究者が特定のスタイルにフォーカスするのを支援していない。
それらを階層に整理し、それぞれの定義の課題を強調し、現在の研究状況のギャップを指摘します。
論文 参考訳(メタデータ) (2021-10-29T15:53:06Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。