論文の概要: Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation
- arxiv url: http://arxiv.org/abs/2310.11026v1
- Date: Tue, 17 Oct 2023 06:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:22:59.515018
- Title: Exploring Automatic Evaluation Methods based on a Decoder-based LLM for
Text Generation
- Title(参考訳): テキスト生成のためのデコーダに基づくllmに基づく自動評価手法の検討
- Authors: Tomohito Kasahara, Daisuke Kawahara
- Abstract要約: 本稿では,エンコーダモデルを用いたチューニングや,同じ条件下での大規模言語モデルなど,様々な手法を比較する。
実験結果から, 調律エンコーダモデルと比較すると, 調律デコーダモデルの性能は低かった。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
- 参考スコア(独自算出の注目度): 16.78350863261211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation of text generation is essential for improving the
accuracy of generation tasks. In light of the current trend towards
increasingly larger decoder-based language models, we investigate automatic
evaluation methods based on such models for text generation. This paper
compares various methods, including tuning with encoder-based models and large
language models under equal conditions, on two different tasks, machine
translation evaluation and semantic textual similarity, in two languages,
Japanese and English. Experimental results show that compared to the tuned
encoder-based models, the tuned decoder-based models perform poorly. The
analysis of the causes for this suggests that the decoder-based models focus on
surface word sequences and do not capture meaning. It is also revealed that
in-context learning of very large decoder-based models such as ChatGPT makes it
difficult to identify fine-grained semantic differences.
- Abstract(参考訳): 生成タスクの精度を向上させるためには,テキスト生成の自動評価が不可欠である。
より大規模なデコーダベース言語モデルへのトレンドを踏まえ、テキスト生成のためのそのようなモデルに基づく自動評価手法を検討する。
本稿では,日本語と英語の2つの言語における機械翻訳評価と意味テキストの類似性について,等条件下でのエンコーダベースモデルと大規模言語モデルとのチューニングなど,様々な手法を比較した。
実験結果から, 調律エンコーダモデルと比較して, 調律デコーダモデルの性能は低かった。
この原因の分析は、デコーダベースのモデルは表層単語のシーケンスにフォーカスしており、意味を捉えていないことを示唆している。
また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Do Encoder Representations of Generative Dialogue Models Encode
Sufficient Information about the Task ? [41.36218215755317]
対話モデルの言語理解の健全さを適切に評価するには,人的・自動的な指標によるテキストの評価が不十分であることを示す。
本稿では,対話モデルで一般的に使用される言語エンコーダのエンコーダ表現を評価するための探索タスクを提案する。
論文 参考訳(メタデータ) (2021-06-20T04:52:37Z) - Code to Comment Translation: A Comparative Study on Model Effectiveness
& Errors [19.653423881863834]
機械翻訳モデルは、コードスニペットを関連する自然言語記述に"翻訳"するために使用される。
このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。
本稿では,スムーズなBLEU-4, METEOR, ROUGE-L機械翻訳指標に基づくソースコード要約モデルを提案する。
実験によって得られた誤り分類において,メトリックベース性能とモデル予測誤差の関係について新たな知見が得られた。
論文 参考訳(メタデータ) (2021-06-15T20:13:14Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。