論文の概要: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- arxiv url: http://arxiv.org/abs/2303.16618v1
- Date: Wed, 29 Mar 2023 12:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:58:54.883182
- Title: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- Title(参考訳): リッチメタデータアノテーションを用いた文字のパーソナライズド言語モデリング
- Authors: Sebastian Vincent, Rowanne Sumner, Alice Dowek, Charlotte Blundell,
Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton
- Abstract要約: 我々は,人気のコーネル映画ダイアログコーパスから,853人の話者を対象とした手書きアノテーションを新たにリリースし,記述する。
このようなアノテーションは言語モデルのパーソナライズに効果的に利用でき、パープレキシティを最大8.5%削減できることを示す。
本手法は,事前訓練データがない話者に対して,ゼロショットでも適用可能である。
- 参考スコア(独自算出の注目度): 2.526898921695627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalisation of language models for dialogue sensitises them to better
capture the speaking patterns of people of specific characteristics, and/or in
specific environments. However, rich character annotations are difficult to
come by and to successfully leverage. In this work, we release and describe a
novel set of manual annotations for 863 speakers from the popular Cornell Movie
Dialog Corpus, including features like characteristic quotes and character
descriptions, and a set of six automatically extracted metadata for over 95% of
the featured films. We perform extensive experiments on two corpora and show
that such annotations can be effectively used to personalise language models,
reducing perplexity by up to 8.5%. Our method can be applied even zero-shot for
speakers for whom no prior training data is available, by relying on
combinations of characters' demographic characteristics. Since collecting such
metadata is costly, we also contribute a cost-benefit analysis to highlight
which annotations were most cost-effective relative to the reduction in
perplexity.
- Abstract(参考訳): 対話のための言語モデルのパーソナライゼーションは、特定の特徴を持つ人々の話し方や、特定の環境における話し方をよりよく捉える。
しかし、リッチな文字アノテーションを使うのは難しく、うまく活用するのは難しい。
本稿では,人気映画コーネル・ムービー・ダイアログ・コーパスの853名の話者に対して,特徴的引用やキャラクタ記述などの特徴を含む新しいマニュアルアノテーションと,95%以上の映画に対して自動抽出されたメタデータを6セット公開・記述する。
2つのコーパスに対して広範な実験を行い、このようなアノテーションを言語モデルのパーソナライズに効果的に利用し、パープレキシティを最大8.5%削減できることを示す。
本手法は,事前の学習データがない話者に対して,文字の人口特性の組み合わせを頼りに,ゼロショットでも適用することができる。
このようなメタデータの収集はコストがかかるため、どのアノテーションが最もコスト効果が高いかを示すコスト便益分析にも貢献する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Improving Context-Aware Preference Modeling for Language Models [62.32080105403915]
本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2024-07-20T16:05:17Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。