論文の概要: Language Modeling with Latent Situations
- arxiv url: http://arxiv.org/abs/2212.10012v1
- Date: Tue, 20 Dec 2022 05:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:11:40.915598
- Title: Language Modeling with Latent Situations
- Title(参考訳): 潜在状況を考慮した言語モデリング
- Authors: Belinda Z. Li, Maxwell Nye, Jacob Andreas
- Abstract要約: 状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。
モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。
4-11%のコヒーレンス向上を実現している。
- 参考スコア(独自算出の注目度): 46.38670628102201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) often generate incoherent outputs: they refer to events
and entity states that are incompatible with the state of the world described
in their inputs. We introduce SituationSupervision, a family of approaches for
improving coherence in LMs by training them to construct and condition on
explicit representations of entities and their states. SituationSupervision has
two components: an auxiliary situation modeling task that trains models to
predict state representations in context, and a latent state inference
procedure that imputes these states from partially annotated training data.
SituationSupervision can be applied to both fine-tuning (by supervising LMs to
encode state variables in their hidden representations) and prompting (by
inducing LMs to interleave textual descriptions of entity states with output
text). In both cases, SituationSupervision requires only a small number of
state annotations to produce major coherence improvements (between 4-11%),
showing that standard LMs can be sample-efficiently trained to model not just
language but the situations it describes.
- Abstract(参考訳): 言語モデル(LM)は、しばしば非一貫性な出力を生成する:それらは、入力に記述された世界の状態と互換性のないイベントやエンティティ状態を指す。
我々は,lmsにおけるコヒーレンスを改善するための手法として,エンティティとその状態の明示的な表現の構築と条件を訓練し,状況スーパービジョンを提案する。
situationsupervisionには2つのコンポーネントがある。コンテキスト内の状態表現を予測するためにモデルをトレーニングする補助的状況モデリングタスクと、これらの状態を部分的に注釈されたトレーニングデータから推論する潜在状態推論手順だ。
状況スーパービジョンは、微調整(隠された表現で状態変数をエンコードするためにLMを監督する)とプロンプト(出力テキストでエンティティ状態のテキスト記述をインターリーブするためにLMを誘導する)の両方に適用できる。
どちらの場合も、ProcessageSupervisionは、主要なコヒーレンスの改善(4-11%)を生成するために、少数の状態アノテーションしか必要とせず、標準のLMは、言語だけでなく、それが記述する状況もモデル化するためにサンプル効率よく訓練できることを示している。
関連論文リスト
- SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文 参考訳(メタデータ) (2024-03-03T19:53:06Z) - Emergence of Abstract State Representations in Embodied Sequence
Modeling [24.827284626429964]
シーケンスモデリングは、アクションを予測トークンとしてモデル化する言語モデルの成功を模倣することを目的としている。
学習モデルの内部アクティベーションから環境レイアウトを合理的に再構築できることを示す。
我々の結果は、より複雑な具体的決定領域へのシーケンスモデリングの目的の適用に対する楽観的な展望を支持する。
論文 参考訳(メタデータ) (2023-11-03T18:00:59Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。