論文の概要: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- arxiv url: http://arxiv.org/abs/2303.16618v2
- Date: Fri, 11 Aug 2023 10:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:12:45.884295
- Title: Personalised Language Modelling of Screen Characters Using Rich Metadata
Annotations
- Title(参考訳): リッチメタデータアノテーションを用いた文字のパーソナライズド言語モデリング
- Authors: Sebastian Vincent, Rowanne Sumner, Alice Dowek, Charlotte Blundell,
Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton
- Abstract要約: リッチなキャラクタとフィルムアノテーションを利用して、言語モデルをスケーラブルな方法でパーソナライズする方法を示す。
我々の最良のモデルはパラメータマッチング言語モデルと比較してパープレキシティを最大6.5%削減できる。
- 参考スコア(独自算出の注目度): 2.526898921695627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models that are sensitive to external context can more effectively
capture the speaking patterns of individuals with specific characteristics or
in particular environments. However, obtaining and leveraging such annotations
can be challenging. In this work, we show how to leverage rich character and
film annotations to personalise language models in a scalable manner. Our best
model can reduce perplexity by up to 6.5% compared to a parameter-matched
language model. Our approach performs on par with speaker-specific fine-tuning
when the fine-tuning data (i.e. past dialogue) for individual speakers is
available. On top of that, it also generalises well to a scenario with no such
data, relying on combinations of demographic characteristics expressed via
metadata. Our findings are consistent across two corpora, one of which is also
a contribution of this paper: Cornell-rich contains rich manual annotations for
863 speaking characters from the Cornell Movie Dialog Corpus, including
features such as characteristic quotes and character descriptions, along with
six automatically extracted metadata features for over 95% of the featured
films. Finally, we also present a cost-benefit analysis highlighting which
annotations are most cost-effective in reducing perplexity.
- Abstract(参考訳): 外部の文脈に敏感な言語モデルは、特定の特徴を持つ個人の発話パターンをより効果的に捉えることができる。
しかし、このようなアノテーションの入手と活用は困難である。
本研究では,リッチなキャラクタとフィルムアノテーションを利用して,言語モデルをスケーラブルにパーソナライズする方法を示す。
我々の最良のモデルはパラメータマッチング言語モデルと比較してパープレキシティを最大6.5%削減できる。
提案手法は,話者毎の微調整データ(過去の対話)が利用できる場合に,話者固有の微調整と同等に動作する。
それに加えて、メタデータを通じて表現される人口統計特性の組み合わせに依存して、そのようなデータを持たないシナリオにもよく当てはまる。
コーネルリッチにはコーネル映画ダイアログコーパスの853文字に対する豊富な手話アノテーションが含まれており、特徴的引用や文字記述などの特徴や、95%以上の特徴のある映画のメタデータを自動抽出する6つの特徴が含まれている。
最後に、どのアノテーションが難易度を減らすのに最もコスト効率が良いかを示すコスト便益分析も提示する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Improving Context-Aware Preference Modeling for Language Models [62.32080105403915]
本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2024-07-20T16:05:17Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。