論文の概要: COMPILING: A Benchmark Dataset for Chinese Complexity Controllable
Definition Generation
- arxiv url: http://arxiv.org/abs/2209.14614v1
- Date: Thu, 29 Sep 2022 08:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:01:28.695125
- Title: COMPILING: A Benchmark Dataset for Chinese Complexity Controllable
Definition Generation
- Title(参考訳): コンパイル:中国の複雑性制御可能な定義生成のためのベンチマークデータセット
- Authors: Jiaxin Yuan, Cunliang Kong, Chenhui Xie, Liner Yang, Erhong Yang
- Abstract要約: 本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。
中国語の定義に関する詳細な情報を得たデータセットCompilingを導入し、その複雑性レベルをラベル付けする。
- 参考スコア(独自算出の注目度): 2.935516292500541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The definition generation task aims to generate a word's definition within a
specific context automatically. However, owing to the lack of datasets for
different complexities, the definitions produced by models tend to keep the
same complexity level. This paper proposes a novel task of generating
definitions for a word with controllable complexity levels. Correspondingly, we
introduce COMPILING, a dataset given detailed information about Chinese
definitions, and each definition is labeled with its complexity levels. The
COMPILING dataset includes 74,303 words and 106,882 definitions. To the best of
our knowledge, it is the largest dataset of the Chinese definition generation
task. We select various representative generation methods as baselines for this
task and conduct evaluations, which illustrates that our dataset plays an
outstanding role in assisting models in generating different complexity-level
definitions. We believe that the COMPILING dataset will benefit further
research in complexity controllable definition generation.
- Abstract(参考訳): 定義生成タスクは、特定の文脈内で単語の定義を自動的に生成することを目的としている。
しかし、異なる複雑さのためのデータセットが欠如しているため、モデルによって生成される定義は同じ複雑さレベルを維持する傾向がある。
本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。
それに応じて,中国の定義に関する詳細な情報を付与したデータセットのコンパイルを導入し,各定義にその複雑性レベルをラベル付けする。
コンパイルデータセットは74,303ワードと106,882定義を含む。
我々の知る限りでは、中国における定義生成タスクの最大のデータセットである。
このタスクのベースラインとして様々な代表生成メソッドを選択し,評価を行い,複雑性レベル定義の異なるモデル生成を支援する上で,データセットが優れた役割を担っていることを示す。
我々はCompilingデータセットが複雑性制御可能な定義生成のさらなる研究に役立つと考えている。
関連論文リスト
- EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。
コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。
広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。
その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-11-25T04:22:33Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - A General Model for Aggregating Annotations Across Simple, Complex, and
Multi-Object Annotation Tasks [51.14185612418977]
ラベルの品質を改善するための戦略は、複数のアノテータに同じ項目にラベルを付け、ラベルを集約するように求めることである。
特定のタスクに対して様々なbespokeモデルが提案されているが、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入するのはこれが初めてである。
本論では,3つの新たな研究課題について検討し,今後の課題を概説する。
論文 参考訳(メタデータ) (2023-12-20T21:28:35Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - DetermiNet: A Large-Scale Diagnostic Dataset for Complex
Visually-Grounded Referencing using Determiners [5.256237513030104]
DetermiNetデータセットは25の判定値に基づいて25万の合成画像とキャプションで構成されている。
タスクは、与えられた決定子のセマンティクスによって制約された関心の対象を特定するために、バウンディングボックスを予測することである。
現在の最先端のビジュアルグラウンドモデルでは、データセットではうまく動作しないことがわかった。
論文 参考訳(メタデータ) (2023-09-07T05:13:52Z) - Assisting Language Learners: Automated Trans-Lingual Definition
Generation via Contrastive Prompt Learning [25.851611353632926]
標準定義生成タスクは、モノリンガル定義を自動的に生成する必要がある。
本稿では,他言語で定義を生成することを目的としたTLDG(Trans-Lingual Definition Generation)を提案する。
論文 参考訳(メタデータ) (2023-06-09T17:32:45Z) - Deep Sequence Models for Text Classification Tasks [0.007329200485567826]
自然言語処理(NLP)は、人間の多様で複雑な言語を理解するために機械を装備している。
一般的なテキスト分類アプリケーションには、情報検索、ニューストピックのモデリング、テーマ抽出、感情分析、スパム検出が含まれる。
RNN、GRU、LSTMといったシーケンスモデルは、長距離依存性を持つタスクのブレークスルーである。
その結果、ほとんどのモデルでは80%と94%の範囲で性能が向上した。
論文 参考訳(メタデータ) (2022-07-18T18:47:18Z) - Multitasking Framework for Unsupervised Simple Definition Generation [5.2221935174520056]
本稿では,言語学習者や低リテラシー学習者を支援するための,シンプル定義生成の課題を提案する。
この課題の重要な課題は、多くの言語における学習者の辞書の欠如である。
複雑な定義を持つ標準辞書と任意の単純なテキストを含むコーパスのみを必要とするマルチタスクフレームワークSimpDefinerを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:16:04Z) - CDM: Combining Extraction and Generation for Definition Modeling [8.487707405248242]
本稿では,定義モデリングのための抽出と生成を組み合わせることを提案する。
まず、Webから対象用語の自己および相関的な定義情報を抽出する。
そして、抽出した定義情報を組み込んで最終定義を生成する。
論文 参考訳(メタデータ) (2021-11-14T08:03:18Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。