論文の概要: BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation
- arxiv url: http://arxiv.org/abs/2405.17039v1
- Date: Mon, 27 May 2024 10:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:52:11.700875
- Title: BWArea Model: Learning World Model, Inverse Dynamics, and Policy for Controllable Language Generation
- Title(参考訳): BWAreaモデル:制御可能な言語生成のための世界モデル、逆ダイナミクス、およびポリシー
- Authors: Chengxing Jia, Pengyuan Wang, Ziniu Li, Yi-Chen Li, Zhilong Zhang, Nan Tang, Yang Yu,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理のパラダイムシフトを触媒としているが、制御性の制限は下流アプリケーションにとって大きな課題となっている。
我々は、人間の脳の神経機構、特にBrocaとWernickeの領域からインスピレーションを得て、この問題に対処することを目指している。
- 参考スコア(独自算出の注目度): 20.445336386799482
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have catalyzed a paradigm shift in natural language processing, yet their limited controllability poses a significant challenge for downstream applications. We aim to address this by drawing inspiration from the neural mechanisms of the human brain, specifically Broca's and Wernicke's areas, which are crucial for language generation and comprehension, respectively. In particular, Broca's area receives cognitive decision signals from Wernicke's area, treating the language generation as an intricate decision-making process, which differs from the fully auto-regressive language generation of existing LLMs. In a similar vein, our proposed system, the BWArea model, conceptualizes language generation as a decision-making task. This model has three components: a language world model, an inverse dynamics model, and a cognitive policy. Like Wernicke's area, the inverse dynamics model is designed to deduce the underlying cognitive intentions, or latent actions, behind each token. The BWArea model is amenable to both pre-training and fine-tuning like existing LLMs. With 30B clean pre-training tokens, we have trained a BWArea model, which achieves competitive performance with LLMs of equal size (1B parameters). Unlike fully auto-regressive LLMs, its pre-training performance does not degenerate if dirty data unintentionally appears. This shows the advantage of a decomposed structure of BWArea model in reducing efforts in laborious data selection and labeling. Finally, we reveal that the BWArea model offers enhanced controllability via fine-tuning the cognitive policy with downstream reward metrics, thereby facilitating alignment with greater simplicity. On 9 out of 10 tasks from two suites, TextWorld and BigBench Hard, our method shows superior performance to auto-regressive LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理のパラダイムシフトを触媒としているが、制御性の制限は下流アプリケーションにとって大きな課題となっている。
我々は、人間の脳の神経機構、特に言語生成と理解に不可欠であるブロカとヴェルニッケの領域からインスピレーションを得て、この問題に対処することを目指している。
特に、ブロカ地域はヴェルニッケ地域から認知的決定信号を受け取り、言語生成を複雑な意思決定プロセスとして扱い、既存のLLMの完全自己回帰言語生成とは異なる。
同様に,提案システムであるBWAreaモデルでは,言語生成を意思決定タスクとして概念化している。
このモデルには、言語世界モデル、逆ダイナミクスモデル、認知ポリシーの3つのコンポーネントがある。
ヴェルニッケの領域と同様に、逆動力学モデルは、各トークンの背後にある根底にある認知意図、すなわち潜在行動を推論するように設計されている。
BWAreaモデルは、既存のLLMと同様、事前トレーニングと微調整の両方に対応できる。
30Bクリーンな事前学習トークンを用いて,同一サイズ(1Bパラメータ)のLLMと競合する性能を持つBWAreaモデルを訓練した。
完全自動回帰LDMとは異なり、汚いデータが意図せずに現れる場合、事前学習性能は劣化しない。
このことは、BWAreaモデルの分解された構造が、残酷なデータ選択とラベル付けの労力を減らすことの利点を示している。
最後に、BWAreaモデルが、下流の報酬指標を用いて認知ポリシーを微調整することで、より簡単な調整を容易にすることで、制御性を向上させることを明らかにした。
TextWorldとBigBench Hardという2つのスイートの10タスクのうち、9タスクにおいて、自動回帰LDMよりも優れたパフォーマンスを示す。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。