論文の概要: MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning
- arxiv url: http://arxiv.org/abs/2409.12059v3
- Date: Tue, 17 Dec 2024 16:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:29.230212
- Title: MeTHanol: Modularized Thinking Language Models with Intermediate Layer Thinking, Decoding and Bootstrapping Reasoning
- Title(参考訳): Methanol: 中間層思考、デコーディング、ブートストラップ推論を備えたモジュール化された思考言語モデル
- Authors: Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Yue Zhao, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji,
- Abstract要約: 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
本稿では,自然界における認知メカニズムに動機付けられ,TaSと呼ばれる新しいモデルアーキテクチャを設計する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
- 参考スコア(独自算出の注目度): 10.478620397712076
- License:
- Abstract: Large Language Model can reasonably understand and generate human expressions but may lack of thorough thinking and reasoning mechanisms. Recently there have been several studies which enhance the thinking ability of language models but most of them are not data-driven or training-based. In this paper, we are motivated by the cognitive mechanism in the natural world, and design a novel model architecture called TaS which allows it to first consider the thoughts and then express the response based upon the query. We design several pipelines to annotate or generate the thought contents from prompt-response samples, then add language heads in a middle layer which behaves as the thinking layer. We train the language model by the thoughts-augmented data and successfully let the thinking layer automatically generate reasonable thoughts and finally output more reasonable responses. Both qualitative examples and quantitative results validate the effectiveness and performance of TaS. Our code is available at https://anonymous.4open.science/r/TadE.
- Abstract(参考訳): 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
近年,言語モデルの思考能力を高める研究がいくつか行われているが,そのほとんどはデータ駆動や訓練に基づくものではない。
本稿では,自然界における認知的メカニズムに動機付けられ,まず思考を考察し,クエリに基づいて応答を表現できるTaSと呼ばれる新しいモデルアーキテクチャを設計する。
我々は,素早い応答サンプルから思考内容を注釈付けしたり生成したりするために,いくつかのパイプラインを設計し,その後,思考層として振る舞う中間層に言語ヘッドを付加する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
定性的な例と定量的な結果の両方がTaSの有効性と性能を検証した。
私たちのコードはhttps://anonymous.4open.science/r/TadE.comで利用可能です。
関連論文リスト
- Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [30.96613796974929]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:45Z) - What Makes Language Models Good-enough? [11.763229353978321]
心理学的な研究は、人間が手元にあるタスクに「十分な」言語入力を表現できる可能性を示唆している。
本研究では,言語モデルにどのようなアーキテクチャ的特徴が与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:51:28Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。