論文の概要: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- arxiv url: http://arxiv.org/abs/2303.16618v1
- Date: Wed, 29 Mar 2023 12:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:58:54.883182
- Title: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- Title(参考訳): リッチメタデータアノテーションを用いた文字のパーソナライズド言語モデリング
- Authors: Sebastian Vincent, Rowanne Sumner, Alice Dowek, Charlotte Blundell,
Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton
- Abstract要約: 我々は,人気のコーネル映画ダイアログコーパスから,853人の話者を対象とした手書きアノテーションを新たにリリースし,記述する。
このようなアノテーションは言語モデルのパーソナライズに効果的に利用でき、パープレキシティを最大8.5%削減できることを示す。
本手法は,事前訓練データがない話者に対して,ゼロショットでも適用可能である。
- 参考スコア(独自算出の注目度): 2.526898921695627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalisation of language models for dialogue sensitises them to better
capture the speaking patterns of people of specific characteristics, and/or in
specific environments. However, rich character annotations are difficult to
come by and to successfully leverage. In this work, we release and describe a
novel set of manual annotations for 863 speakers from the popular Cornell Movie
Dialog Corpus, including features like characteristic quotes and character
descriptions, and a set of six automatically extracted metadata for over 95% of
the featured films. We perform extensive experiments on two corpora and show
that such annotations can be effectively used to personalise language models,
reducing perplexity by up to 8.5%. Our method can be applied even zero-shot for
speakers for whom no prior training data is available, by relying on
combinations of characters' demographic characteristics. Since collecting such
metadata is costly, we also contribute a cost-benefit analysis to highlight
which annotations were most cost-effective relative to the reduction in
perplexity.
- Abstract(参考訳): 対話のための言語モデルのパーソナライゼーションは、特定の特徴を持つ人々の話し方や、特定の環境における話し方をよりよく捉える。
しかし、リッチな文字アノテーションを使うのは難しく、うまく活用するのは難しい。
本稿では,人気映画コーネル・ムービー・ダイアログ・コーパスの853名の話者に対して,特徴的引用やキャラクタ記述などの特徴を含む新しいマニュアルアノテーションと,95%以上の映画に対して自動抽出されたメタデータを6セット公開・記述する。
2つのコーパスに対して広範な実験を行い、このようなアノテーションを言語モデルのパーソナライズに効果的に利用し、パープレキシティを最大8.5%削減できることを示す。
本手法は,事前の学習データがない話者に対して,文字の人口特性の組み合わせを頼りに,ゼロショットでも適用することができる。
このようなメタデータの収集はコストがかかるため、どのアノテーションが最もコスト効果が高いかを示すコスト便益分析にも貢献する。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Context-aware Neural Machine Translation for English-Japanese Business
Scene Dialogues [14.043741721036543]
本稿では,日英ビジネス対話翻訳における現在のニューラル・マシン・トランスフォーメーション(NMT)モデルの性能向上について検討する。
本稿では,話者のターンやシーンタイプなどの外部情報を符号化する新しいコンテキストトークンを提案する。
我々は,先行文と外部文脈(CXMIは文脈サイズを増大させる)の両方をモデルに利用し,敬語翻訳のより焦点を絞った分析を行う。
論文 参考訳(メタデータ) (2023-11-20T18:06:03Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。