論文の概要: Language Modeling with Latent Situations
- arxiv url: http://arxiv.org/abs/2212.10012v1
- Date: Tue, 20 Dec 2022 05:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:11:40.915598
- Title: Language Modeling with Latent Situations
- Title(参考訳): 潜在状況を考慮した言語モデリング
- Authors: Belinda Z. Li, Maxwell Nye, Jacob Andreas
- Abstract要約: 状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。
モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。
4-11%のコヒーレンス向上を実現している。
- 参考スコア(独自算出の注目度): 46.38670628102201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) often generate incoherent outputs: they refer to events
and entity states that are incompatible with the state of the world described
in their inputs. We introduce SituationSupervision, a family of approaches for
improving coherence in LMs by training them to construct and condition on
explicit representations of entities and their states. SituationSupervision has
two components: an auxiliary situation modeling task that trains models to
predict state representations in context, and a latent state inference
procedure that imputes these states from partially annotated training data.
SituationSupervision can be applied to both fine-tuning (by supervising LMs to
encode state variables in their hidden representations) and prompting (by
inducing LMs to interleave textual descriptions of entity states with output
text). In both cases, SituationSupervision requires only a small number of
state annotations to produce major coherence improvements (between 4-11%),
showing that standard LMs can be sample-efficiently trained to model not just
language but the situations it describes.
- Abstract(参考訳): 言語モデル(LM)は、しばしば非一貫性な出力を生成する:それらは、入力に記述された世界の状態と互換性のないイベントやエンティティ状態を指す。
我々は,lmsにおけるコヒーレンスを改善するための手法として,エンティティとその状態の明示的な表現の構築と条件を訓練し,状況スーパービジョンを提案する。
situationsupervisionには2つのコンポーネントがある。コンテキスト内の状態表現を予測するためにモデルをトレーニングする補助的状況モデリングタスクと、これらの状態を部分的に注釈されたトレーニングデータから推論する潜在状態推論手順だ。
状況スーパービジョンは、微調整(隠された表現で状態変数をエンコードするためにLMを監督する)とプロンプト(出力テキストでエンティティ状態のテキスト記述をインターリーブするためにLMを誘導する)の両方に適用できる。
どちらの場合も、ProcessageSupervisionは、主要なコヒーレンスの改善(4-11%)を生成するために、少数の状態アノテーションしか必要とせず、標準のLMは、言語だけでなく、それが記述する状況もモデル化するためにサンプル効率よく訓練できることを示している。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional
Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。
最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。
我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文 参考訳(メタデータ) (2024-03-03T19:53:06Z) - Emergence of Abstract State Representations in Embodied Sequence
Modeling [24.827284626429964]
シーケンスモデリングは、アクションを予測トークンとしてモデル化する言語モデルの成功を模倣することを目的としている。
学習モデルの内部アクティベーションから環境レイアウトを合理的に再構築できることを示す。
我々の結果は、より複雑な具体的決定領域へのシーケンスモデリングの目的の適用に対する楽観的な展望を支持する。
論文 参考訳(メタデータ) (2023-11-03T18:00:59Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。