論文の概要: What do Large Language Models Learn about Scripts?
- arxiv url: http://arxiv.org/abs/2112.13834v1
- Date: Mon, 27 Dec 2021 18:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:05:35.226480
- Title: What do Large Language Models Learn about Scripts?
- Title(参考訳): 大きな言語モデルはスクリプトについて何を学ぶのか?
- Authors: Abhilasha Sancheti and Rachel Rudinger
- Abstract要約: 本稿では,自然言語のプロンプト形式でシナリオが与えられたイベントシーケンス記述を生成するタスクについて紹介する。
ゼロショット探索実験では、生成型LMは、主に省略、無関係、繰り返し、または誤順序のイベントを発生させる。
本稿では,パイプラインベースのスクリプト誘導フレームワーク(SIF)を提案する。
- 参考スコア(独自算出の注目度): 5.429894958215681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Script Knowledge (Schank and Abelson, 1975) has long been recognized as
crucial for language understanding as it can help in filling in unstated
information in a narrative. However, such knowledge is expensive to produce
manually and difficult to induce from text due to reporting bias (Gordon and
Van Durme, 2013). In this work, we are interested in the scientific question of
whether explicit script knowledge is present and accessible through pre-trained
generative language models (LMs). To this end, we introduce the task of
generating full event sequence descriptions (ESDs) given a scenario in the form
of natural language prompts. In zero-shot probing experiments, we find that
generative LMs produce poor ESDs with mostly omitted, irrelevant, repeated or
misordered events. To address this, we propose a pipeline-based script
induction framework (SIF) which can generate good quality ESDs for unseen
scenarios (e.g., bake a cake). SIF is a two-staged framework that fine-tunes LM
on a small set of ESD examples in the first stage. In the second stage, ESD
generated for an unseen scenario is post-processed using RoBERTa-based models
to filter irrelevant events, remove repetitions, and reorder the temporally
misordered events. Through automatic and manual evaluations, we demonstrate
that SIF yields substantial improvements ($1$-$3$ BLUE points) over a
fine-tuned LM. However, manual analysis shows that there is great room for
improvement, offering a new research direction for inducing script knowledge.
- Abstract(参考訳): スクリプト知識(Schank and Abelson, 1975)は、物語の未発表情報を埋めるのに役立つため、言語理解にとって非常に重要であると長年認識されてきた。
しかし、そのような知識は、レポートバイアスによるテキストから手作業で作り出すのが難しく、コストがかかる(Gordon and Van Durme, 2013)。
本研究では,事前学習された生成言語モデル(LM)を通じて,明示的なスクリプト知識が存在するか,アクセス可能であるか,という科学的問題に関心を持つ。
そこで本稿では,自然言語プロンプトの形式でシナリオが与えられたイベントシーケンス記述(ESD)を生成するタスクを紹介する。
ゼロショット探索実験では、生成型LMは、主に省略、無関係、繰り返し、または誤順序のイベントを発生させる。
そこで本研究では,パイプラインベースのスクリプトインダクションフレームワーク (sif) を提案する。
SIFは2段階のフレームワークで、最初の段階で小さなESDの例でLMを微調整する。
第2段階では、目に見えないシナリオのために生成されたESDは、RoBERTaベースのモデルを使用して後処理され、無関係なイベントをフィルタリングし、繰り返しを削除し、時間的に誤ったイベントを順序付けする。
自動的および手動的な評価により、SIFは微調整されたLMに対して実質的な改善(1$-$3$ BLUE)を得ることを示した。
しかし,手動による分析では,スクリプトの知識を誘導する新たな研究の方向性として,改善の余地が十分にあることが示された。
関連論文リスト
- Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - proScript: Partially Ordered Scripts Generation via Pre-trained Language
Models [49.03193243699244]
我々は、トレーニング済みのニューラルネットワークモデル(LM)が高品質なスクリプトを生成するために微調整できることを初めて実証した。
クラウドソースされた部分的に順序付けられたスクリプト(proScriptという名前)を収集しました。
私たちの実験では、これまでのスクリプトコレクションの障壁を克服するための新しいアプローチを示す(例えば、タスク(i)中のf1=75.7)。
論文 参考訳(メタデータ) (2021-04-16T17:35:10Z) - Time-Stamped Language Model: Teaching Language Models to Understand the
Flow of Events [8.655294504286635]
我々はこの課題を質問応答問題として定式化することを提案する。
これにより、手続き的テキスト理解に適応することで、他のQAベンチマークで事前訓練された言語モデルを使用することができる。
Proparaデータセットで評価したモデルでは、F1スコアが3.1%上昇した状態での公開結果の改善が示されている。
論文 参考訳(メタデータ) (2021-04-15T17:50:41Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。