論文の概要: KoBigBird-large: Transformation of Transformer for Korean Language
Understanding
- arxiv url: http://arxiv.org/abs/2309.10339v1
- Date: Tue, 19 Sep 2023 05:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:05:47.458498
- Title: KoBigBird-large: Transformation of Transformer for Korean Language
Understanding
- Title(参考訳): kobigbird-large: 韓国語理解のためのトランスフォーマー変換
- Authors: Kisu Yang, Yoonna Jang, Taewoo Lee, Jinwoo Seong, Hyungjin Lee,
Hwanseok Jang, Heuiseok Lim
- Abstract要約: KoBigBird-largeは韓国のBigBirdの大きなサイズで、最先端のパフォーマンスを実現し、韓国語理解のための長いシーケンス処理を可能にする。
実験では、KoBigBird-largeは、韓国語理解ベンチマークにおける最先端の全体的なパフォーマンスと、文書分類と質問応答タスクにおける最高のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 5.387866677918128
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work presents KoBigBird-large, a large size of Korean BigBird that
achieves state-of-the-art performance and allows long sequence processing for
Korean language understanding. Without further pretraining, we only transform
the architecture and extend the positional encoding with our proposed Tapered
Absolute Positional Encoding Representations (TAPER). In experiments,
KoBigBird-large shows state-of-the-art overall performance on Korean language
understanding benchmarks and the best performance on document classification
and question answering tasks for longer sequences against the competitive
baseline models. We publicly release our model here.
- Abstract(参考訳): この研究はKoBigBird-largeという韓国のBigBirdの大規模で、最先端のパフォーマンスを実現し、韓国語理解のための長いシーケンス処理を可能にする。
事前訓練がなければ、アーキテクチャを変換し、提案したTAPER(Tapered Absolute Positional Encoding Representation)を用いて位置エンコーディングを拡張するのみである。
実験では、KoBigBird-largeは、韓国語理解ベンチマークにおける最先端の全体的なパフォーマンスと、競合するベースラインモデルに対する長いシーケンスに対する文書分類と質問応答タスクにおける最高のパフォーマンスを示す。
モデルはここで公開しています。
関連論文リスト
- Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.924819546105335]
我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文 参考訳(メタデータ) (2024-10-16T10:49:22Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。
GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-05-24T15:30:41Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - What Changes Can Large-scale Language Models Bring? Intensive Study on
HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers [16.596023525331862]
GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)の、卓越したコンテキスト内学習能力を示す。
韓国中心の560Bトークンコーパスでトレーニングした82B GPT-3の韓国版HyperCLOVAを紹介する。
我々は、プロンプトベースの学習のパフォーマンスの利点を示し、プロンプトエンジニアリングパイプラインにどのように組み込むことができるかを示す。
論文 参考訳(メタデータ) (2021-09-10T03:32:19Z) - Analysis of the Penn Korean Universal Dependency Treebank (PKT-UD):
Manual Revision to Build Robust Parsing Model in Korean [15.899449418195106]
我々は最初に、PKT-UD(Penn Korean Universal Treebank)に関する重要な問題についてオープンする。
我々は、よりクリーンなUDアノテーションを作成するために、コーパス全体を手動で修正することで、これらの問題に対処する。
UDコーパスの他の部分との互換性については、音声タグと依存関係関係を広範囲に修正する。
論文 参考訳(メタデータ) (2020-05-26T17:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。