Fugu-MT 論文翻訳(概要): Language Modeling with Latent Situations

論文の概要: Language Modeling with Latent Situations

arxiv url: http://arxiv.org/abs/2212.10012v1
Date: Tue, 20 Dec 2022 05:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 15:11:40.915598
Title: Language Modeling with Latent Situations
Title（参考訳）: 潜在状況を考慮した言語モデリング
Authors: Belinda Z. Li, Maxwell Nye, Jacob Andreas
Abstract要約: 状況スーパービジョンは、言語モデルにおけるコヒーレンスを改善するためのアプローチのファミリーである。モデルの構築と、エンティティとその状態の明示的な表現の条件付けを訓練する。 4-11%のコヒーレンス向上を実現している。
参考スコア（独自算出の注目度）: 46.38670628102201
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) often generate incoherent outputs: they refer to events and entity states that are incompatible with the state of the world described in their inputs. We introduce SituationSupervision, a family of approaches for improving coherence in LMs by training them to construct and condition on explicit representations of entities and their states. SituationSupervision has two components: an auxiliary situation modeling task that trains models to predict state representations in context, and a latent state inference procedure that imputes these states from partially annotated training data. SituationSupervision can be applied to both fine-tuning (by supervising LMs to encode state variables in their hidden representations) and prompting (by inducing LMs to interleave textual descriptions of entity states with output text). In both cases, SituationSupervision requires only a small number of state annotations to produce major coherence improvements (between 4-11%), showing that standard LMs can be sample-efficiently trained to model not just language but the situations it describes.
Abstract（参考訳）: 言語モデル(LM)は、しばしば非一貫性な出力を生成する:それらは、入力に記述された世界の状態と互換性のないイベントやエンティティ状態を指す。我々は,lmsにおけるコヒーレンスを改善するための手法として,エンティティとその状態の明示的な表現の構築と条件を訓練し,状況スーパービジョンを提案する。 situationsupervisionには2つのコンポーネントがある。コンテキスト内の状態表現を予測するためにモデルをトレーニングする補助的状況モデリングタスクと、これらの状態を部分的に注釈されたトレーニングデータから推論する潜在状態推論手順だ。状況スーパービジョンは、微調整(隠された表現で状態変数をエンコードするためにLMを監督する)とプロンプト(出力テキストでエンティティ状態のテキスト記述をインターリーブするためにLMを誘導する)の両方に適用できる。どちらの場合も、ProcessageSupervisionは、主要なコヒーレンスの改善(4-11%)を生成するために、少数の状態アノテーションしか必要とせず、標準のLMは、言語だけでなく、それが記述する状況もモデル化するためにサンプル効率よく訓練できることを示している。

関連論文リスト

Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文参考訳（メタデータ） (2024-04-30T12:41:00Z)
SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos [54.01116513202433]
本研究では,視覚状態の部分的な観察を目標とする行動手順を目標とする指導ビデオにおけるプロシージャ計画の課題について検討する。最近の研究は、訓練中にアクセス可能なシーケンスレベルのアノテーションのみを持つステップのシーケンスモデリングに成功し、手順における状態の役割を見落としている。我々は,手順におけるステップと状態の因果関係を調べることによって,より構造化された状態空間を確立することを目指している。
論文参考訳（メタデータ） (2024-03-03T19:53:06Z)
Coalescing Global and Local Information for Procedural Text Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文参考訳（メタデータ） (2022-08-26T19:16:32Z)
Generating Coherent Narratives by Learning Dynamic and Discrete Entity States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。 2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文参考訳（メタデータ） (2022-08-08T09:02:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。