論文の概要: Spiral Language Modeling
- arxiv url: http://arxiv.org/abs/2112.10543v1
- Date: Mon, 20 Dec 2021 14:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 22:02:41.033326
- Title: Spiral Language Modeling
- Title(参考訳): スパイラル言語モデリング
- Authors: Yong Cao, Yukun Feng, Shaohui Kuang, Gu Xu
- Abstract要約: スパイラル言語モデリング(英: Spiral Language Modeling、SLM)は、L2RとR2L以外の自然言語文を構築できる一般的な手法である。
SLMは、結果テキスト内の任意のトークンから始めることで、自然言語テキストを作成することができる。
8つの広く研究されているニューラルネットワーク翻訳(NMT)タスクの実験は、SLMが最大4.7BLEUの増加に対して常に有効であることを示している。
- 参考スコア(独自算出の注目度): 5.816641790933646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In almost all text generation applications, word sequences are constructed in
a left-to-right (L2R) or right-to-left (R2L) manner, as natural language
sentences are written either L2R or R2L. However, we find that the natural
language written order is not essential for text generation. In this paper, we
propose Spiral Language Modeling (SLM), a general approach that enables one to
construct natural language sentences beyond the L2R and R2L order. SLM allows
one to form natural language text by starting from an arbitrary token inside
the result text and expanding the rest tokens around the selected ones. It
makes the decoding order a new optimization objective besides the language
model perplexity, which further improves the diversity and quality of the
generated text. Furthermore, SLM makes it possible to manipulate the text
construction process by selecting a proper starting token. SLM also introduces
generation orderings as additional regularization to improve model robustness
in low-resource scenarios. Experiments on 8 widely studied Neural Machine
Translation (NMT) tasks show that SLM is constantly effective with up to 4.7
BLEU increase comparing to the conventional L2R decoding approach.
- Abstract(参考訳): ほぼすべてのテキスト生成アプリケーションにおいて、自然言語文がL2RまたはR2Lと書かれるため、単語列は左から右へ(L2R)または右から左へ(R2L)に構築される。
しかし,テキスト生成には自然言語による順序付けが不可欠ではないことがわかった。
本稿では,l2r と r2l の順序を超えて自然言語文を構築できる汎用的手法であるスパイラル言語モデリング(slm)を提案する。
slmでは、結果テキスト内の任意のトークンから始まり、選択したトークンの周りにrestトークンを拡張することで、自然言語テキストを作成できる。
復号順序を言語モデルの難易度以外の新たな最適化目標とし、生成したテキストの多様性と品質をさらに向上させる。
さらに、SLMは適切な開始トークンを選択してテキスト構築プロセスを操作することができる。
slmはまた、低リソースシナリオにおけるモデルのロバスト性を改善する追加の正規化として生成順序付けを導入した。
8つの広く研究されているニューラルネットワーク翻訳(NMT)タスクの実験は、SLMが従来のL2R復号法と比較して最大4.7BLEUの増加で常に有効であることを示している。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Select and Reorder: A Novel Approach for Neural Sign Language Production [35.35777909051466]
手話は、しばしば低リソース言語に分類されるが、正確な翻訳を実現する上で大きな課題に直面している。
本稿では,Select and Reorder(S&R)について紹介する。Gross Selection(GS)とGross Reordering(GR)の2つのステップに分割することで,データ不足に対処する新しいアプローチである。
我々は,Meine DGS Annotated (mDGS)データセット上で,最先端のBLEUとRogeスコアを達成し,テキスト・トゥ・グロス(T2G)翻訳において37.88%のBLUE-1が大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-04-17T16:25:19Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - Improving Natural Language Capability of Code Large Language Model [13.639938216171185]
本稿では,AttentionExtractorとAttentionCoderという2つのモジュールからなる新しいフレームワークを提案する。
AttentionExtractorはユーザの自然言語要求からキーフレーズを抽出する役割を持ち、AttentionCoderは抽出したフレーズを利用してターゲットコードを生成する。
フレームワークの有効性を検証するため、5つの自然言語をカバーするMultiNL-Hという新しいコード生成ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-01-25T15:33:20Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。