論文の概要: OYXOY: A Modern NLP Test Suite for Modern Greek
- arxiv url: http://arxiv.org/abs/2309.07009v2
- Date: Fri, 26 Jan 2024 16:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:00:01.463623
- Title: OYXOY: A Modern NLP Test Suite for Modern Greek
- Title(参考訳): OYXOY: 現代ギリシャ向け最新のNLPテストスイート
- Authors: Konstantinos Kogkalidis, Stergios Chatzikyriakidis, Eirini
Chrysovalantou Giannikouri, Vassiliki Katsouli, Christina Klironomou,
Christina Koula, Dimitris Papadakis, Thelka Pasparaki, Erofili Psaltaki,
Efthymia Sakellariou, Hara Soupiona
- Abstract要約: 本稿では,ギリシャ語NLPのための言語的動機付け評価スイートの開発に向けた基礎的なステップとして機能する。
本稿では,自然言語推論,単語感覚の曖昧さ,メタファ検出を対象とする4つの専門家による評価タスクを紹介する。
既存のタスクの言語による複製よりも、より広いリソースと評価コミュニティに共鳴する2つのイノベーションに貢献する。
- 参考スコア(独自算出の注目度): 2.059776592203642
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper serves as a foundational step towards the development of a
linguistically motivated and technically relevant evaluation suite for Greek
NLP. We initiate this endeavor by introducing four expert-verified evaluation
tasks, specifically targeted at natural language inference, word sense
disambiguation (through example comparison or sense selection) and metaphor
detection. More than language-adapted replicas of existing tasks, we contribute
two innovations which will resonate with the broader resource and evaluation
community. Firstly, our inference dataset is the first of its kind, marking not
just \textit{one}, but rather \textit{all} possible inference labels,
accounting for possible shifts due to e.g. ambiguity or polysemy. Secondly, we
demonstrate a cost-efficient method to obtain datasets for under-resourced
languages. Using ChatGPT as a language-neutral parser, we transform the
Dictionary of Standard Modern Greek into a structured format, from which we
derive the other three tasks through simple projections. Alongside each task,
we conduct experiments using currently available state of the art machinery.
Our experimental baselines affirm the challenging nature of our tasks and
highlight the need for expedited progress in order for the Greek NLP ecosystem
to keep pace with contemporary mainstream research.
- Abstract(参考訳): 本論文は,ギリシャ語NLPのための言語的動機付けと技術的に関係のある評価スイートの開発に向けた基礎的なステップとして機能する。
この取り組みは、自然言語推論、単語感覚の曖昧さ(例比較や感覚選択)、比喩検出の4つの専門家による評価タスクを導入することで開始する。
既存のタスクの言語適応レプリカよりも、より広いリソースと評価コミュニティに共鳴する2つのイノベーションに貢献する。
第一に、私たちの推論データセットは、その種の最初のものであり、単に \textit{one} ではなく、推論ラベルである \textit{all} を示し、例えば曖昧さや多義性によって起こりうるシフトを考慮します。
次に,低リソース言語のためのデータセットを得るためのコスト効率のよい手法を示す。
言語ニュートラルパーサーとしてChatGPTを用いて、標準現代ギリシア語辞典を構造化形式に変換し、そこから単純な射影を通して他の3つのタスクを導出する。
各作業の他に,現在入手可能な工芸機械を用いて実験を行う。
我々の実験ベースラインは、我々の課題の難易度を実証し、ギリシャのNLPエコシステムが現代主流の研究に追随するために、迅速な進歩の必要性を強調します。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Multi-granular Legal Topic Classification on Greek Legislation [4.09134848993518]
ギリシア語で書かれた法律文書を分類する作業について研究する。
ギリシャの法律文書分類のタスクがオープンな研究プロジェクトで検討されたのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-30T17:43:00Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - GREEK-BERT: The Greeks visiting Sesame Street [25.406207104603027]
BERTのようなトランスフォーマーベースの言語モデルは、いくつかの下流自然言語処理タスクで最先端のパフォーマンスを達成した。
GREEK-BERTはモノリンガルなBERTベースの現代ギリシア語言語モデルである。
論文 参考訳(メタデータ) (2020-08-27T09:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。