論文の概要: Analyzing Syntactic Generalization Capacity of Pre-trained Language
Models on Japanese Honorific Conversion
- arxiv url: http://arxiv.org/abs/2306.03055v1
- Date: Mon, 5 Jun 2023 17:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:45:27.995182
- Title: Analyzing Syntactic Generalization Capacity of Pre-trained Language
Models on Japanese Honorific Conversion
- Title(参考訳): 日本語の名誉変換に基づく事前学習言語モデルの構文一般化能力の解析
- Authors: Ryo Sekizawa and Hitomi Yanaka
- Abstract要約: 事前訓練された大規模言語モデルが、人間のような日本人の名誉を柔軟に扱えるかどうかは不明である。
GPT-3の統語的一般化能力を検討するために,様々な文構造の問題テンプレートから日本語の敬称データセットを構築する。
以上の結果より, 微調整GPT-3は, プロンプトベースよりも, 文脈対応の名誉変換作業において優れていた。
- 参考スコア(独自算出の注目度): 9.683269364766426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Japanese honorifics is challenging because it requires not only
knowledge of the grammatical rules but also contextual information, such as
social relationships. It remains unclear whether pre-trained large language
models (LLMs) can flexibly handle Japanese honorifics like humans. To analyze
this, we introduce an honorific conversion task that considers social
relationships among people mentioned in a conversation. We construct a Japanese
honorifics dataset from problem templates of various sentence structures to
investigate the syntactic generalization capacity of GPT-3, one of the leading
LLMs, on this task under two settings: fine-tuning and prompt learning. Our
results showed that the fine-tuned GPT-3 performed better in a context-aware
honorific conversion task than the prompt-based one. The fine-tuned model
demonstrated overall syntactic generalizability towards compound honorific
sentences, except when tested with the data involving direct speech.
- Abstract(参考訳): 日本語の敬語の使用は、文法規則の知識だけでなく、社会関係などの文脈情報も必要とするため、難しい。
事前訓練された大規模言語モデル(LLM)が人間のような日本人の名誉を柔軟に扱えるかどうかは不明である。
これを分析するために,会話で言及された人々の社会的関係を考慮した名誉変換タスクを導入する。
本研究では,様々な文構造の課題テンプレートから日本語の敬称データセットを構築し,主要なLLMの一つであるGPT-3の構文的一般化能力について,微調整と迅速な学習という2つの設定で検討する。
以上の結果より, 微調整GPT-3は, プロンプトベースよりも, 文脈対応の名誉変換作業において優れていた。
微調整モデルでは、直接音声を含むデータを用いてテストした場合を除いて、複合敬語に対する全体的な統語的一般化性を示した。
関連論文リスト
- On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Exploration of Language Dependency for Japanese Self-Supervised Speech
Representation Models [18.22157315310462]
自己教師付き学習(SSL)はモノリンガルだけでなく、言語横断的な設定でも劇的に成功している。
本稿では,単言語モデルとの比較において,言語間モデルの有効性について検討する。
日本語で収集されたラベルのないデータは、何万時間もの英語および/または多言語データで事前訓練された言語間モデルに匹敵する性能を達成するために、どの程度のラベル付きデータが必要であるかを検討する。
論文 参考訳(メタデータ) (2023-05-09T06:28:10Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms [10.02997544238235]
大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
論文 参考訳(メタデータ) (2022-08-25T10:21:23Z) - A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis [10.747119651974947]
宣言的な質問は毎日のカントン会話でよく使われる。
Vanilla Neural Text-to-Speech (TTS) システムはこれらの文に対して上昇するイントネーションを合成することができない。
本稿では, BERTに基づく文/問合せ分類器を用いて, Cantonese TTSモデルを補完することを提案する。
論文 参考訳(メタデータ) (2022-08-03T16:21:08Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。