論文の概要: ELCC: the Emergent Language Corpus Collection
- arxiv url: http://arxiv.org/abs/2407.04158v1
- Date: Thu, 4 Jul 2024 21:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:00:44.278171
- Title: ELCC: the Emergent Language Corpus Collection
- Title(参考訳): ELCC: 創発的言語コーパスコレクション
- Authors: Brendon Boldt, David Mortensen,
- Abstract要約: Emergent Language Corpus Collection (ELCC)は、緊急通信システムのオープンソース実装から収集されたコーパスのコレクションである。
各コーパスには、ソースコードの特徴を記述したメタデータと、コーパスの分析スイートが添付されている。
- 参考スコア(独自算出の注目度): 1.6574413179773761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Emergent Language Corpus Collection (ELCC): a collection of corpora collected from open source implementations of emergent communication systems across the literature. These systems include a variety of signalling game environments as well as more complex tasks like a social deduction game and embodied navigation. Each corpus is annotated with metadata describing the characteristics of the source system as well as a suite of analyses of the corpus (e.g., size, entropy, average message length). Currently, research studying emergent languages requires directly running different systems which takes time away from actual analyses of such languages, limits the variety of languages that are studied, and presents a barrier to entry for researchers without a background in deep learning. The availability of a substantial collection of well-documented emergent language corpora, then, will enable new directions of research which focus their purview on the properties of emergent languages themselves rather than on experimental apparatus.
- Abstract(参考訳): 本稿では,言語コーパスコレクション (ELCC: Emergent Language Corpus Collection) について紹介する。
これらのシステムには、様々なシグナリングゲーム環境や、より複雑なソーシャル推論ゲームや、具体化されたナビゲーションなどが含まれる。
各コーパスには、ソースコードの特徴を記述したメタデータと、コーパスの分析スイート(例えば、サイズ、エントロピー、平均メッセージ長)が添付されている。
現在、創発言語の研究は、そのような言語の実際の分析から離れて、研究される言語の種類を制限し、深層学習のバックグラウンドを持たない研究者の参入障壁を提示する様々なシステムを直接実行する必要がある。
十分に文書化された創発言語コーパスのかなりのコレクションが利用可能となることで、実験装置ではなく、創発言語自体の特性に焦点をあてた研究の新たな方向性が可能になる。
関連論文リスト
- ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts [0.0]
英語のTwitter投稿から言語コーパスの開発と展開について述べる。
主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。
形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
論文 参考訳(メタデータ) (2024-07-22T04:48:04Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Visually Analyzing Contextualized Embeddings [2.802183323381949]
本稿では,ディープニューラルネットワークに基づく言語モデルによって生成された文脈的埋め込みを視覚的に解析する手法を提案する。
我々のアプローチは自然言語処理のための言語探索から着想を得ており、タスクは言語構造のための言語モデルを探索するために設計されている。
論文 参考訳(メタデータ) (2020-09-05T15:40:51Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。