論文の概要: Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking
- arxiv url: http://arxiv.org/abs/2409.12059v1
- Date: Wed, 18 Sep 2024 15:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:55:29.569932
- Title: Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking
- Title(参考訳): 思考と発話を同時に行う大規模言語モデルの2層学習と復号化
- Authors: Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji,
- Abstract要約: 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
本稿では,自然界における認知メカニズムに動機付けられ,TaSと呼ばれる新しいモデルアーキテクチャを設計する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
- 参考スコア(独自算出の注目度): 8.02728252625147
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model can reasonably understand and generate human expressions but may lack of thorough thinking and reasoning mechanisms. Recently there have been several studies which enhance the thinking ability of language models but most of them are not data-driven or training-based. In this paper, we are motivated by the cognitive mechanism in the natural world, and design a novel model architecture called TaS which allows it to first consider the thoughts and then express the response based upon the query. We design several pipelines to annotate or generate the thought contents from prompt-response samples, then add language heads in a middle layer which behaves as the thinking layer. We train the language model by the thoughts-augmented data and successfully let the thinking layer automatically generate reasonable thoughts and finally output more reasonable responses. Both qualitative examples and quantitative results validate the effectiveness and performance of TaS. Our code is available at https://anonymous.4open.science/r/TadE.
- Abstract(参考訳): 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
近年,言語モデルの思考能力を高める研究がいくつか行われているが,そのほとんどはデータ駆動や訓練に基づくものではない。
本稿では,自然界における認知的メカニズムに動機付けられ,まず思考を考察し,クエリに基づいて応答を表現できるTaSと呼ばれる新しいモデルアーキテクチャを設計する。
我々は,素早い応答サンプルから思考内容を注釈付けしたり生成したりするために,いくつかのパイプラインを設計し,その後,思考層として振る舞う中間層に言語ヘッドを付加する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
定性的な例と定量的な結果の両方がTaSの有効性と性能を検証した。
私たちのコードはhttps://anonymous.4open.science/r/TadE.comで利用可能です。
関連論文リスト
- Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [30.96613796974929]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:45Z) - What Makes Language Models Good-enough? [11.763229353978321]
心理学的な研究は、人間が手元にあるタスクに「十分な」言語入力を表現できる可能性を示唆している。
本研究では,言語モデルにどのようなアーキテクチャ的特徴が与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:51:28Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Language Models are Bounded Pragmatic Speakers: Understanding RLHF from
a Bayesian Cognitive Modeling Perspective [2.8282906214258805]
本稿では,有界プラグマティック話者と呼ばれる確率論的認知モデルを定式化する。
人間のフィードバックからの強化学習によって微調整された大きな言語モデルは、高速でスローなモデルに似た思考モデルを具現化していることを示す。
論文 参考訳(メタデータ) (2023-05-28T16:04:48Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。