論文の概要: Reference-less Analysis of Context Specificity in Translation with
Personalised Language Models
- arxiv url: http://arxiv.org/abs/2303.16618v3
- Date: Tue, 5 Mar 2024 08:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:46:28.334173
- Title: Reference-less Analysis of Context Specificity in Translation with
Personalised Language Models
- Title(参考訳): パーソナライズド言語モデルを用いた翻訳における文脈特異性の参照レス解析
- Authors: Sebastian Vincent, Alice Dowek, Rowanne Sumner, Charlotte Blundell,
Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton
- Abstract要約: 本研究は、リッチキャラクタとフィルムアノテーションがいかにパーソナライズ言語モデル(LM)に活用できるかを考察する。
非文脈モデルと比較して、難易度を最大6.5%削減するために、リッチな文脈情報を活用するLMを構築している。
我々の領域における専門翻訳の文脈特化度は、文脈機械翻訳モデルによりよりよく保存できることを示す。
- 参考スコア(独自算出の注目度): 3.527589066359829
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sensitising language models (LMs) to external context helps them to more
effectively capture the speaking patterns of individuals with specific
characteristics or in particular environments. This work investigates to what
extent rich character and film annotations can be leveraged to personalise LMs
in a scalable manner. We then explore the use of such models in evaluating
context specificity in machine translation. We build LMs which leverage rich
contextual information to reduce perplexity by up to 6.5% compared to a
non-contextual model, and generalise well to a scenario with no
speaker-specific data, relying on combinations of demographic characteristics
expressed via metadata. Our findings are consistent across two corpora, one of
which (Cornell-rich) is also a contribution of this paper. We then use our
personalised LMs to measure the co-occurrence of extra-textual context and
translation hypotheses in a machine translation setting. Our results suggest
that the degree to which professional translations in our domain are
context-specific can be preserved to a better extent by a contextual machine
translation model than a non-contextual model, which is also reflected in the
contextual model's superior reference-based scores.
- Abstract(参考訳): 言語モデル(LM)を外部の文脈に知覚することで、特定の特徴を持つ個人の話し言葉パターンをより効果的に捉えることができる。
本研究は、リッチキャラクタとフィルムアノテーションがいかにして拡張性のあるLMをパーソナライズできるかを調査する。
次に,機械翻訳における文脈特異性評価におけるモデルの利用について検討する。
我々は,非文脈モデルと比較してパープレキシティを最大6.5%低減するために,リッチな文脈情報を利用するlmsを構築し,話者固有のデータを持たないシナリオによく一般化し,メタデータによって表現される人口統計学的特徴の組み合わせに依存する。
研究は2つのコーパスで一致しており,そのうちの1つ(Cornell-rich)も本論文の寄与である。
次に、パーソナライズされたLMを用いて、機械翻訳設定における文脈外コンテキストと翻訳仮説の共起を計測する。
以上の結果から,コンテクストモデルの優れた参照ベーススコアに反映される非コンテクストモデルよりも,コンテクスト機械翻訳モデルにより,コンテクスト翻訳がコンテキスト固有である程度が保存可能であることが示唆された。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Improving Context-Aware Preference Modeling for Language Models [62.32080105403915]
本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2024-07-20T16:05:17Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Quantifying the Plausibility of Context Reliance in Neural Machine
Translation [25.29330352252055]
我々は、PECoRe(Context Reliance)の可塑性評価を導入する。
PECoReは、言語モデル世代におけるコンテキスト使用量の定量化を目的として設計されたエンドツーエンドの解釈可能性フレームワークである。
我々は、文脈対応機械翻訳モデルの妥当性を定量化するために、pecoreを使用します。
論文 参考訳(メタデータ) (2023-10-02T13:26:43Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。