論文の概要: Learning a Formality-Aware Japanese Sentence Representation
- arxiv url: http://arxiv.org/abs/2301.07209v1
- Date: Tue, 17 Jan 2023 22:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:21:45.843377
- Title: Learning a Formality-Aware Japanese Sentence Representation
- Title(参考訳): 形式性を考慮した日本語文表現の学習
- Authors: Henry Li Xinyuan and Ray Lee and Jerry Chen and Kelly Marchisio
- Abstract要約: 日本語文の形式性認識表現を学習するためのシーケンス・ツー・シーケンス法を提案する。
本稿では,日本語文の手続き的形式分類に関する先行研究を適応させることにより,形式性アノテートされた並列データの欠如に対処する。
- 参考スコア(独自算出の注目度): 4.364088891019632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While the way intermediate representations are generated in encoder-decoder
sequence-to-sequence models typically allow them to preserve the semantics of
the input sentence, input features such as formality might be left out. On the
other hand, downstream tasks such as translation would benefit from working
with a sentence representation that preserves formality in addition to
semantics, so as to generate sentences with the appropriate level of social
formality -- the difference between speaking to a friend versus speaking with a
supervisor. We propose a sequence-to-sequence method for learning a
formality-aware representation for Japanese sentences, where sentence
generation is conditioned on both the original representation of the input
sentence, and a side constraint which guides the sentence representation
towards preserving formality information. Additionally, we propose augmenting
the sentence representation with a learned representation of formality which
facilitates the extraction of formality in downstream tasks. We address the
lack of formality-annotated parallel data by adapting previous works on
procedural formality classification of Japanese sentences. Experimental results
suggest that our techniques not only helps the decoder recover the formality of
the input sentence, but also slightly improves the preservation of input
sentence semantics.
- Abstract(参考訳): エンコーダ-デコーダシーケンス-シーケンス間のモデルで中間表現を生成する方法は、通常、入力文のセマンティクスを保存できるが、形式のような入力特徴は残される。
一方、翻訳のような下流のタスクは、意味論に加えて形式性を保持する文表現で作業することで、適切なレベルの社会的フォーマル性を持つ文を生成することができる。
本稿では,入力文の原文表現に文生成条件を付与する日本語文の形式性認識表現と,形式性情報を保存するために文表現を導く側制約を学習するためのシーケンス・ツー・シーケンス法を提案する。
さらに,下流課題における形式表現の抽出を容易にする形式表現の学習による文表現の強化を提案する。
本稿では, 日本語文の手続き形式分類に関する先行研究を適応させることにより, 形式的注釈付き並列データの欠如に対処する。
実験の結果, 提案手法は, デコーダが入力文の形式性を回復するだけでなく, 入力文のセマンティクスの保存性も向上することが示唆された。
関連論文リスト
- Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Bipartite Graph Pre-training for Unsupervised Extractive Summarization
with Graph Convolutional Auto-Encoders [24.13261636386226]
本研究は, 文章表現の正当性や特徴を最適化するプロセスから, 事前学習した埋め込みを活用することで, 重要な文のランク付けに役立てるものであることを論じる。
そこで本研究では,文埋め込みのためのグラフ事前学習オートエンコーダを提案する。
論文 参考訳(メタデータ) (2023-10-29T12:27:18Z) - Trustworthy Formal Natural Language Specifications [3.8073142980733]
本稿では、自然言語の表現的サブセットで書かれた仕様を構築できることを示す。
モジュール的に形式化された英語のサブセットで仕様を提供する手段を実装し、それらを形式的なクレームに自動的に変換する。
我々は,各単語の解釈方法と文の構造を用いて意味を計算したことを示す証明証明書を作成した。
論文 参考訳(メタデータ) (2023-10-05T20:41:47Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Bridging Continuous and Discrete Spaces: Interpretable Sentence
Representation Learning via Compositional Operations [80.45474362071236]
文の合成意味論が埋め込み空間における構成操作として直接反映できるかどうかは不明である。
文埋め込み学習のためのエンドツーエンドフレームワークであるInterSentを提案する。
論文 参考訳(メタデータ) (2023-05-24T00:44:49Z) - Encoding Sentence Position in Context-Aware Neural Machine Translation
with Concatenation [25.9276959748365]
コンテクスト対応翻訳は、連続した文と標準のTransformerアーキテクチャとの結合を処理することで実現できる。
本稿では,連結ウィンドウに含まれる文の位置に関する明示的な情報をモデルに提供するという直感的な考え方について検討する。
論文 参考訳(メタデータ) (2023-02-13T15:39:08Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Data Annealing for Informal Language Understanding Tasks [66.2988222278475]
本稿では,非公式な言語タスクのパフォーマンスギャップを埋めるために,データアニーリング変換学習手法を提案する。
これは、非公式言語でBERTのような事前訓練されたモデルを利用することに成功した。
論文 参考訳(メタデータ) (2020-04-24T09:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。