論文の概要: Ancient Korean Archive Translation: Comparison Analysis on Statistical phrase alignment, LLM in-context learning, and inter-methodological approach
- arxiv url: http://arxiv.org/abs/2407.11368v1
- Date: Tue, 16 Jul 2024 04:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:32:32.339556
- Title: Ancient Korean Archive Translation: Comparison Analysis on Statistical phrase alignment, LLM in-context learning, and inter-methodological approach
- Title(参考訳): 古代韓国のアーカイブ翻訳:統計的フレーズアライメント、LLMインコンテクスト学習、およびメソッド間アプローチの比較分析
- Authors: Sojung Lucia Kim, Taehong Jang, Joonmo Ahn,
- Abstract要約: 本研究における提案手法の性能はBLEUスコア36.71で,SOLAR-10.7Bの文脈学習と既存のSeq2Seqモデルに勝っている。
- 参考スコア(独自算出の注目度): 0.4915744683251149
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study aims to compare three methods for translating ancient texts with sparse corpora: (1) the traditional statistical translation method of phrase alignment, (2) in-context LLM learning, and (3) proposed inter methodological approach - statistical machine translation method using sentence piece tokens derived from unified set of source-target corpus. The performance of the proposed approach in this study is 36.71 in BLEU score, surpassing the scores of SOLAR-10.7B context learning and the best existing Seq2Seq model. Further analysis and discussion are presented.
- Abstract(参考訳): 本研究は,古文書をスパースコーパスに翻訳する3つの手法を比較することを目的としている。(1)フレーズアライメントの従来の統計的翻訳法,(2)インコンテクストLLM学習法,(3)ソース・ターゲットコーパスの統一集合から派生した文片トークンを用いた統計的機械翻訳法を提案する。
本研究における提案手法の性能はBLEUスコア36.71で,SOLAR-10.7Bの文脈学習と既存のSeq2Seqモデルに勝っている。
さらなる分析と議論を行う。
関連論文リスト
- Fast Training Dataset Attribution via In-Context Learning [9.542023122304096]
我々は、インコンテキスト学習とプロンプトエンジニアリングを用いて、インストラクションチューニングされた大規模言語モデル(LLM)におけるトレーニングデータの貢献度を推定する。
本研究では,(1)LLM出力のコンテクストと非コンテクストとの差を測定する類似性に基づくアプローチと,(2)コントリビューションスコアを行列因数分解タスクとして識別する問題をモデル化する混合分布モデルアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-14T20:48:45Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - A Multilingual Perspective Towards the Evaluation of Attribution Methods
in Natural Language Inference [28.949004915740776]
本稿では,自然言語推論(NLI)タスクに対する帰属的手法を評価するための多言語的手法を提案する。
まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。
次に、異なる出力機構と集約手法を考慮し、帰属手法の包括的な評価を行う。
論文 参考訳(メタデータ) (2022-04-11T22:11:05Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Language Models for Lexical Inference in Context [4.581468205348204]
文脈における語彙推論(英: Lexical inference in context, LIiC)とは、2つの非常に類似した文間のテキストの含意を認識するタスクである。
本稿では,この課題に対する事前学習言語モデル(LM)に基づいて,最初のアプローチを定式化し,評価する。
LIiC に対する事前訓練による LM の可能性が示された。
論文 参考訳(メタデータ) (2021-02-10T09:08:22Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。