論文の概要: Learning to Predict Concept Ordering for Common Sense Generation
- arxiv url: http://arxiv.org/abs/2309.06363v1
- Date: Tue, 12 Sep 2023 16:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:13:33.870854
- Title: Learning to Predict Concept Ordering for Common Sense Generation
- Title(参考訳): 常識生成のための概念順序予測の学習
- Authors: Tianhui Zhang, Danushka Bollegala, Bei Peng
- Abstract要約: 入力概念の順序付けと生成文の品質の関係について検討する。
BART-largeモデルは,本研究で検討した他のLMよりも一貫して優れていた。
GPT3ベースの大きな言語モデル(LLM)は、必ずしもこのタスクにおいてより小さなLMよりも優れているとは限らない。
- 参考スコア(独自算出の注目度): 32.2052248473022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has shown that the ordering in which concepts are shown to a
commonsense generator plays an important role, affecting the quality of the
generated sentence. However, it remains a challenge to determine the optimal
ordering of a given set of concepts such that a natural sentence covering all
the concepts could be generated from a pretrained generator. To understand the
relationship between the ordering of the input concepts and the quality of the
generated sentences, we conduct a systematic study considering multiple
language models (LMs) and concept ordering strategies. We find that BART-large
model consistently outperforms all other LMs considered in this study when
fine-tuned using the ordering of concepts as they appear in CommonGen training
data as measured using multiple evaluation metrics. Moreover, the larger
GPT3-based large language models (LLMs) variants do not necessarily outperform
much smaller LMs on this task, even when fine-tuned on task-specific training
data. Interestingly, human annotators significantly reorder input concept sets
when manually writing sentences covering those concepts, and this ordering
provides the best sentence generations independently of the LM used for the
generation, outperforming a probabilistic concept ordering baseline
- Abstract(参考訳): 先行研究では、概念がコモンセンス生成器に示される順序が重要な役割を果たすことが示され、生成された文の品質に影響を及ぼす。
しかし、すべての概念をカバーする自然文が事前学習された生成元から生成できるような、与えられた概念集合の最適順序を決定することは依然として課題である。
入力概念の順序付けと生成文の品質の関係を理解するために,複数の言語モデル(lms)と概念順序付け戦略を考慮した体系的な研究を行う。
複数の評価指標を用いて測定したコモンゲントレーニングデータに現れる概念の順序を微調整した場合,bart-largeモデルは,本研究で検討した全てのlmsを一貫して上回っていることがわかった。
さらに、より大きな gpt3 ベースの large language model (llms) は、タスク固有のトレーニングデータで微調整された場合でも、必ずしもこのタスクの lms をはるかに小さくするものではない。
興味深いことに、人間のアノテータは、これらの概念をカバーする文章を手書きするときに入力概念セットを著しく順序付けし、この順序付けは、生成に使用するLMとは独立して最高の文を生成し、ベースラインの確率論的概念よりも優れている。
関連論文リスト
- Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension [18.919972400933393]
我々は、先進的な事前訓練タスク「Next Token Prediction+」を提案する。
この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderの両方が、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T03:11:07Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Revisiting Generative Commonsense Reasoning: A Pre-Ordering Approach [16.91261958272558]
入力概念の順序は,PTMの常識的知識を活用できる能力に影響を及ぼす可能性があると論じる。
生成前に与えられた概念の順序を精巧に操作するための事前注文手法を提案する。
論文 参考訳(メタデータ) (2022-05-26T06:36:53Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Learning and Analyzing Generation Order for Undirected Sequence Models [86.10875837475783]
我々は、強化学習を通して、事前訓練された非直接翻訳モデルの生成順序を学習する政策を訓練する。
学習順序による翻訳は,マンシモフらの学習順序によって左から右へ復号された出力や復号された出力よりも高いBLEUスコアが得られることを示す。
我々の発見は、非方向性生成モデルのメカニズムに関するさらなる洞察を与え、この方向のさらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-12-16T18:29:07Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。