論文の概要: Extracting linguistic speech patterns of Japanese fictional characters
using subword units
- arxiv url: http://arxiv.org/abs/2203.02632v1
- Date: Sat, 5 Mar 2022 01:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 08:24:25.601988
- Title: Extracting linguistic speech patterns of Japanese fictional characters
using subword units
- Title(参考訳): サブワード単位を用いた日本語フィクションの言語音声パターン抽出
- Authors: Mika Kishino, Kanako Komiya
- Abstract要約: 本研究では,日本語アニメやゲームキャラクターを特徴付ける言語音声パターンを抽出し,分析した。
本稿では,主にディープラーニングのために提案されたサブワード単位を用いて,日本語アニメやゲームキャラクタのセグメンテーションラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study extracted and analyzed the linguistic speech patterns that
characterize Japanese anime or game characters. Conventional morphological
analyzers, such as MeCab, segment words with high performance, but they are
unable to segment broken expressions or utterance endings that are not listed
in the dictionary, which often appears in lines of anime or game characters. To
overcome this challenge, we propose segmenting lines of Japanese anime or game
characters using subword units that were proposed mainly for deep learning, and
extracting frequently occurring strings to obtain expressions that characterize
their utterances. We analyzed the subword units weighted by TF/IDF according to
gender, age, and each anime character and show that they are linguistic speech
patterns that are specific for each feature. Additionally, a classification
experiment shows that the model with subword units outperformed that with the
conventional method.
- Abstract(参考訳): 本研究は,日本のアニメやゲームキャラクタを特徴付ける言語音声パターンを抽出・分析した。
MeCabのような従来の形態素解析器は高い性能を持つセグメンテーションワードであるが、しばしばアニメやゲームキャラクタの行に現れる辞書に載らない、壊れた表現や発話の終端をセグメント化できない。
この課題を克服するために,深層学習を主目的としたサブワード単位を用いた日本語アニメやゲームキャラクタのセグメンテーションを行い,頻発する文字列を抽出し,発話を特徴付ける表現を得る。
TF/IDFで重み付けされたサブワード単位を,性別,年齢,各アニメキャラクタに応じて分析し,各特徴に特有の言語音声パターンであることを示す。
さらに, 分類実験により, サブワード単位を持つモデルが従来の手法よりも優れていることを示す。
関連論文リスト
- Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names [53.24414727354768]
本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
論文 参考訳(メタデータ) (2024-08-01T05:47:04Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Distinguishing Fictional Voices: a Study of Authorship Verification
Models for Quotation Attribution [12.300285585201767]
既訓練のオーサシップ検証モデルを用いて,引用文を符号化して構築した文字のスタイリスティックな表現について検討する。
以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。
論文 参考訳(メタデータ) (2024-01-30T12:49:40Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Quantifying Discourse Support for Omitted Pronouns [1.2891210250935143]
プロ・ドロップは多くの言語でよく見られるが、その談話のモチベーションは十分に特徴づけられていない。
中国語の話題連鎖理論に触発された本研究は,落語代名詞を物語の登場人物への過剰な参照と区別する方法を示した。
論文 参考訳(メタデータ) (2022-09-16T14:21:13Z) - ConFiguRe: Exploring Discourse-level Chinese Figures of Speech [19.356209443798694]
コンフィギュア認識のための中国語コーパス(ConFiguRe)の構築
ConFiguReは、談話レベルのコンテキストから図形単位を抽出することを目的としている。
私たちは徹底的な実験を行い、3つのタスクがすべて既存のモデルに挑戦していることを示します。
論文 参考訳(メタデータ) (2022-09-16T02:31:48Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Revisiting Neural Language Modelling with Syllables [3.198144010381572]
我々は20言語でオープン語彙生成タスクのために音節を再考する。
ルールベースのシラビフィケーション手法を5つの言語で使用し,残りをハイフン化ツールで処理する。
同等の難易度で、音節は文字、注釈付き形態素、教師なしのサブワードよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。