論文の概要: Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing
Idiomatic Translation with Language Models
- arxiv url: http://arxiv.org/abs/2308.13961v2
- Date: Mon, 25 Dec 2023 02:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:11:15.284194
- Title: Translate Meanings, Not Just Words: IdiomKB's Role in Optimizing
Idiomatic Translation with Language Models
- Title(参考訳): 単語だけでなく意味を翻訳する:言語モデルによる慣用翻訳の最適化におけるイディオムkbの役割
- Authors: Shuang Li, Jiangjie Chen, Siyu Yuan, Xinyi Wu, Hao Yang, Shimin Tao,
Yanghua Xiao
- Abstract要約: idiomsは非構成的な性質を持ち、Transformerベースのシステムに特別な課題を提起する。
既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。
大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。
このKBはBLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する
- 参考スコア(独自算出の注目度): 57.60487455727155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To translate well, machine translation (MT) systems and general-purposed
language models (LMs) need a deep understanding of both source and target
languages and cultures. Therefore, idioms, with their non-compositional nature,
pose particular challenges for Transformer-based systems, as literal
translations often miss the intended meaning. Traditional methods, which
replace idioms using existing knowledge bases (KBs), often lack scale and
context awareness. Addressing these challenges, our approach prioritizes
context awareness and scalability, allowing for offline storage of idioms in a
manageable KB size. This ensures efficient serving with smaller models and
provides a more comprehensive understanding of idiomatic expressions. We
introduce a multilingual idiom KB (IdiomKB) developed using large LMs to
address this. This KB facilitates better translation by smaller models, such as
BLOOMZ (7.1B), Alpaca (7B), and InstructGPT (6.7B), by retrieving idioms'
figurative meanings. We present a novel, GPT-4-powered metric for human-aligned
evaluation, demonstrating that IdiomKB considerably boosts model performance.
Human evaluations further validate our KB's quality.
- Abstract(参考訳): 機械翻訳(MT)システムと汎用言語モデル(LM)をうまく翻訳するには、ソースおよびターゲット言語と文化の両方を深く理解する必要がある。
それゆえ、イディオムは非コンポジション的性質を持ち、リテラル翻訳はしばしば意図された意味を欠くため、トランスフォーマーベースのシステムにおいて特別な課題を提起する。
既存の知識ベース(KB)を使ってイディオムを置き換える伝統的な手法は、しばしばスケールとコンテキストの認識を欠いている。
これらの課題に対処するため、我々はコンテキスト認識とスケーラビリティを優先し、管理可能なkbサイズでのイディオムのオフラインストレージを可能にする。
これにより、より小さなモデルで効率的なサービスを提供し、慣用的な表現をより包括的に理解することができる。
大規模なLMを用いて開発した多言語イディオムKB (IdiomKB) を提案する。
このKBは、BLOOMZ (7.1B)、Alpaca (7B)、InstructGPT (6.7B)のようなより小さなモデルによるより良い翻訳を促進する。
本稿では,新しいgpt-4を用いた評価指標を提案し,イディオムkbがモデル性能を大幅に向上させることを示す。
人間の評価はKBの品質をさらに検証します。
関連論文リスト
- KBLaM: Knowledge Base augmented Language Model [8.247901935078357]
外部知識を用いた大規模言語モデル拡張のための知識ベース拡張言語モデル(KBLaM)を提案する。
KBLaMは文書のコーパスから構築された知識ベースで動作し、KB内の各知識を連続キー値ベクトル対に変換する。
KBLaMの様々なタスクにおける有効性を示す実験は、質問応答やオープンエンド推論などである。
論文 参考訳(メタデータ) (2024-10-14T12:45:10Z) - TIARA: Multi-grained Retrieval for Robust Question Answering over Large
Knowledge Bases [20.751369684593985]
TIARAは、PLMやオラクルエンティティアノテーションなどを含む以前のSOTAよりも、GrailQAおよびWebQuestionsSP上の少なくとも4.1と1.1のF1ポイントが優れている。
論文 参考訳(メタデータ) (2022-10-24T02:41:10Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - The Analysis about Building Cross-lingual Sememe Knowledge Base Based on
Deep Clustering Network [0.7310043452300736]
Sememe knowledge bases (KB) には、Sememeに注釈を付けた単語が含まれている。
本稿では,ディープクラスタリングネットワーク(DCN)に基づく教師なしの手法を提案する。
論文 参考訳(メタデータ) (2022-08-10T17:40:45Z) - A Review on Language Models as Knowledge Bases [55.035030134703995]
近年,知識ベース (KB) としての事前訓練言語モデル (LM) の利用に対する,NLPコミュニティへの関心が高まっている。
論文 参考訳(メタデータ) (2022-04-12T18:35:23Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Automatic Construction of Sememe Knowledge Bases via Dictionaries [53.8700954466358]
セメム知識ベース(SKB)は、セメムを自然言語処理に適用することを可能にする。
ほとんどの言語はSKBを持っておらず、手作業によるSKBの構築は時間と労力がかかる。
本稿では,既存の辞書を用いてSKBを構築するための簡易かつ完全自動手法を提案する。
論文 参考訳(メタデータ) (2021-05-26T14:41:01Z) - Reasoning Over Virtual Knowledge Bases With Open Predicate Relations [85.19305347984515]
Open Predicate Query Language (OPQL) を紹介します。
OPQLは、テキストから完全にトレーニングされた仮想知識ベース(VKB)を構築する方法である。
OPQLは2つの異なるKB推論タスクにおいて、以前のVKBメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-14T01:29:54Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z) - Scalable Neural Methods for Reasoning With a Symbolic Knowledge Base [34.837700505583]
本稿では,Sparse-matrix reified KB と呼ばれる記号的知識ベース (KB) の表現方法について述べる。
この表現は、完全に微分可能で、KBの本来の意味に忠実であり、マルチホップ推論をモデル化するのに十分な表現力を持ち、現実的に大きなKBで使用可能なスケーラブルなニューラルネットワークモジュールを可能にする。
論文 参考訳(メタデータ) (2020-02-14T16:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。