論文の概要: COMPILING: A Benchmark Dataset for Chinese Complexity Controllable
Definition Generation
- arxiv url: http://arxiv.org/abs/2209.14614v1
- Date: Thu, 29 Sep 2022 08:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:01:28.695125
- Title: COMPILING: A Benchmark Dataset for Chinese Complexity Controllable
Definition Generation
- Title(参考訳): コンパイル:中国の複雑性制御可能な定義生成のためのベンチマークデータセット
- Authors: Jiaxin Yuan, Cunliang Kong, Chenhui Xie, Liner Yang, Erhong Yang
- Abstract要約: 本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。
中国語の定義に関する詳細な情報を得たデータセットCompilingを導入し、その複雑性レベルをラベル付けする。
- 参考スコア(独自算出の注目度): 2.935516292500541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The definition generation task aims to generate a word's definition within a
specific context automatically. However, owing to the lack of datasets for
different complexities, the definitions produced by models tend to keep the
same complexity level. This paper proposes a novel task of generating
definitions for a word with controllable complexity levels. Correspondingly, we
introduce COMPILING, a dataset given detailed information about Chinese
definitions, and each definition is labeled with its complexity levels. The
COMPILING dataset includes 74,303 words and 106,882 definitions. To the best of
our knowledge, it is the largest dataset of the Chinese definition generation
task. We select various representative generation methods as baselines for this
task and conduct evaluations, which illustrates that our dataset plays an
outstanding role in assisting models in generating different complexity-level
definitions. We believe that the COMPILING dataset will benefit further
research in complexity controllable definition generation.
- Abstract(参考訳): 定義生成タスクは、特定の文脈内で単語の定義を自動的に生成することを目的としている。
しかし、異なる複雑さのためのデータセットが欠如しているため、モデルによって生成される定義は同じ複雑さレベルを維持する傾向がある。
本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。
それに応じて,中国の定義に関する詳細な情報を付与したデータセットのコンパイルを導入し,各定義にその複雑性レベルをラベル付けする。
コンパイルデータセットは74,303ワードと106,882定義を含む。
我々の知る限りでは、中国における定義生成タスクの最大のデータセットである。
このタスクのベースラインとして様々な代表生成メソッドを選択し,評価を行い,複雑性レベル定義の異なるモデル生成を支援する上で,データセットが優れた役割を担っていることを示す。
我々はCompilingデータセットが複雑性制御可能な定義生成のさらなる研究に役立つと考えている。
関連論文リスト
- A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - DetermiNet: A Large-Scale Diagnostic Dataset for Complex
Visually-Grounded Referencing using Determiners [5.256237513030104]
DetermiNetデータセットは25の判定値に基づいて25万の合成画像とキャプションで構成されている。
タスクは、与えられた決定子のセマンティクスによって制約された関心の対象を特定するために、バウンディングボックスを予測することである。
現在の最先端のビジュアルグラウンドモデルでは、データセットではうまく動作しないことがわかった。
論文 参考訳(メタデータ) (2023-09-07T05:13:52Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy
Model [50.45582596865073]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - Assisting Language Learners: Automated Trans-Lingual Definition
Generation via Contrastive Prompt Learning [25.851611353632926]
標準定義生成タスクは、モノリンガル定義を自動的に生成する必要がある。
本稿では,他言語で定義を生成することを目的としたTLDG(Trans-Lingual Definition Generation)を提案する。
論文 参考訳(メタデータ) (2023-06-09T17:32:45Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - Multitasking Framework for Unsupervised Simple Definition Generation [5.2221935174520056]
本稿では,言語学習者や低リテラシー学習者を支援するための,シンプル定義生成の課題を提案する。
この課題の重要な課題は、多くの言語における学習者の辞書の欠如である。
複雑な定義を持つ標準辞書と任意の単純なテキストを含むコーパスのみを必要とするマルチタスクフレームワークSimpDefinerを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:16:04Z) - Data-to-text Generation with Variational Sequential Planning [74.3955521225497]
非言語的な入力からテキスト出力を生成することを目的としたデータ・ツー・テキスト生成の課題について考察する。
協調的かつ有意義な方法で高レベルの情報を整理する責任を負う計画要素を付加したニューラルモデルを提案する。
我々は、計画と生成のステップをインターリーブしながら、構造化された変動モデルで逐次、潜在計画を推測する。
論文 参考訳(メタデータ) (2022-02-28T13:17:59Z) - CDM: Combining Extraction and Generation for Definition Modeling [8.487707405248242]
本稿では,定義モデリングのための抽出と生成を組み合わせることを提案する。
まず、Webから対象用語の自己および相関的な定義情報を抽出する。
そして、抽出した定義情報を組み込んで最終定義を生成する。
論文 参考訳(メタデータ) (2021-11-14T08:03:18Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。