論文の概要: LUNA: A Framework for Language Understanding and Naturalness Assessment
- arxiv url: http://arxiv.org/abs/2401.04522v1
- Date: Tue, 9 Jan 2024 12:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:47:13.786300
- Title: LUNA: A Framework for Language Understanding and Naturalness Assessment
- Title(参考訳): LUNA: 言語理解と自然性評価のためのフレームワーク
- Authors: Marat Saidov and Aleksandra Bakalova and Ekaterina Taktasheva and
Vladislav Mikhailov and Ekaterina Artemova
- Abstract要約: 本稿では,20NLG評価指標の統一インターフェースを提案する。
メトリクスは、それらの参照依存性とそれらが採用するテキスト表現の種類に基づいて分類される。
LUNAの素直な設計は、数行のコードだけで、新しいメトリクスで簡単に拡張できる。
- 参考スコア(独自算出の注目度): 44.88534386427704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Natural Language Generation (NLG) models has gained
increased attention, urging the development of metrics that evaluate various
aspects of generated text. LUNA addresses this challenge by introducing a
unified interface for 20 NLG evaluation metrics. These metrics are categorized
based on their reference-dependence and the type of text representation they
employ, from string-based n-gram overlap to the utilization of static
embeddings and pre-trained language models.
The straightforward design of LUNA allows for easy extension with novel
metrics, requiring just a few lines of code. LUNA offers a user-friendly tool
for evaluating generated texts.
- Abstract(参考訳): 自然言語生成(NLG)モデルの評価が注目され、生成したテキストの様々な側面を評価する指標の開発が進められている。
LUNAは、20NLG評価メトリクスのための統一インターフェースを導入することで、この問題に対処する。
これらのメトリクスは、文字列ベースのn-gramオーバーラップから静的埋め込みと事前学習された言語モデルの利用まで、参照依存度と採用するテキスト表現の種類に基づいて分類される。
LUNAの直接的な設計は、数行のコードだけで、新しいメトリクスで簡単に拡張できる。
LUNAは、生成されたテキストを評価するユーザフレンドリーなツールを提供する。
関連論文リスト
- Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Neural Models for Source Code Synthesis and Completion [0.0]
コード提案システムへの自然言語(NL)は、NL発話をコンパイル可能なコードスニペットに変換することで、統合開発環境(IDE)の開発者を支援する。
現在のアプローチは主に意味解析に基づくハードコードなルールベースのシステムである。
我々は,NLを汎用プログラミング言語にマッピングするためのシーケンス・ツー・シーケンス深層学習モデルと訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-08T17:10:12Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Multimodal Conditionality for Natural Language Generation [0.0]
MAnTiSは、トランスフォーマーベースの自然言語生成モデルにおけるマルチモーダル条件に対する一般的なアプローチである。
我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。
論文 参考訳(メタデータ) (2021-09-02T22:06:07Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。