論文の概要: COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances
- arxiv url: http://arxiv.org/abs/2311.01012v2
- Date: Mon, 13 Nov 2023 18:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:35:24.680555
- Title: COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances
- Title(参考訳): COPAL-ID: インドネシアの言語と地域文化とニュアンス
- Authors: Haryo Akbarianto Wibowo, Erland Hilman Fuadi, Made Nindyatama
Nityasya, Radityo Eko Prasojo, Alham Fikri Aji
- Abstract要約: インドネシア語における新しい常識推論データセットCOPAL-IDを提案する。
以前のインドネシアのCOPAデータセット(XCOPA-ID)とは異なり、COPAL-IDはインドネシアの地方および文化のニュアンスを取り入れている。
- 参考スコア(独自算出の注目度): 14.739082853582497
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present publicly available COPAL-ID, a novel Indonesian language common
sense reasoning dataset. Unlike the previous Indonesian COPA dataset
(XCOPA-ID), COPAL-ID incorporates Indonesian local and cultural nuances, and
therefore, provides a more natural portrayal of day-to-day causal reasoning
within the Indonesian cultural sphere. Professionally written by natives from
scratch, COPAL-ID is more fluent and free from awkward phrases, unlike the
translated XCOPA-ID. In addition, we present COPAL-ID in both standard
Indonesian and in Jakartan Indonesian--a dialect commonly used in daily
conversation. COPAL-ID poses a greater challenge for existing open-sourced and
closed state-of-the-art multilingual language models, yet is trivially easy for
humans. Our findings suggest that even the current best open-source,
multilingual model struggles to perform well, achieving 65.47% accuracy on
COPAL-ID, significantly lower than on the culturally-devoid XCOPA-ID (79.40%).
Despite GPT-4's impressive score, it suffers the same performance degradation
compared to its XCOPA-ID score, and it still falls short of human performance.
This shows that these language models are still way behind in comprehending the
local nuances of Indonesian.
- Abstract(参考訳): インドネシア語共通感覚推論データセットであるCOPAL-IDを公開している。
以前のインドネシアのCOPAデータセット(XCOPA-ID)とは異なり、COPAL-IDはインドネシアの地域的・文化的ニュアンスを取り入れており、インドネシアの文化圏における日々の因果関係のより自然な描写を提供する。
XCOPA-IDはXCOPA-IDとは違って、スクラッチからネイティブに書かれており、難解なフレーズがない。
さらに,標準インドネシア語とジャカルタインドネシア語の両方において,日常会話で一般的に使用される方言であるcopal-idを提示する。
COPAL-IDは、既存のオープンソースでクローズドな多言語言語モデルにとって大きな課題となる。
以上の結果から,現在最も優れたオープンソース多言語モデルでさえ,copal-idの65.47%の精度を達成するのに苦労していることが示唆された(79.40%)。
GPT-4の素晴らしいスコアにもかかわらず、XCOPA-IDスコアと同等のパフォーマンス低下を被り、それでも人間のパフォーマンスに欠ける。
これは、これらの言語モデルは、インドネシアの地元のニュアンスを理解する上で、まだ遅れていることを示している。
関連論文リスト
- Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - NusaBERT: Teaching IndoBERT to be Multilingual and Multicultural [0.0]
NusaBERTは、語彙拡張を取り入れ、地域言語や方言を含む多言語コーパスを活用することで、IndoBERT上に構築されている。
NusaBERTは、さまざまなベンチマークの厳格な評価を通じて、インドネシアの複数の言語に関わるタスクにおける最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2024-03-04T08:05:34Z) - IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。