論文の概要: Three tiers of computation in transformers and in brain architectures
- arxiv url: http://arxiv.org/abs/2503.04848v2
- Date: Wed, 12 Mar 2025 22:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:35:47.611744
- Title: Three tiers of computation in transformers and in brain architectures
- Title(参考訳): 変圧器と脳構造における3層計算
- Authors: E Graham, R Granger,
- Abstract要約: 人間は、算術的または論理的推論タスクを実行するために、言語を熱心に処理するが、批判的な訓練を必要とする。
スケールしたサイズではなく、システムの能力を決定する階層間の遷移であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human language and logic abilities are computationally quantified within the well-studied grammar-automata hierarchy. We identify three hierarchical tiers and two corresponding transitions and show their correspondence to specific abilities in transformer-based language models (LMs). These emergent abilities have often been described in terms of scaling; we show that it is the transition between tiers, rather than scaled size itself, that determines a system's capabilities. Specifically, humans effortlessly process language yet require critical training to perform arithmetic or logical reasoning tasks; and LMs possess language abilities absent from predecessor systems, yet still struggle with logical processing. We submit a novel benchmark of computational power, provide empirical evaluations of humans and fifteen LMs, and, most significantly, provide a theoretically grounded framework to promote careful thinking about these crucial topics. The resulting principled analyses provide explanatory accounts of the abilities and shortfalls of LMs, and suggest actionable insights into the expansion of their logic abilities.
- Abstract(参考訳): 人間の言語と論理能力は、よく研究された文法・オートマタ階層の中で計算的に定量化される。
3つの階層層と2つの対応する遷移を識別し、トランスフォーマーベース言語モデル(LM)における特定の能力に対応することを示す。
これらの創発的能力は、しばしばスケーリングの観点で説明され、スケールされたサイズそのものではなく、システムの能力を決定する階層間の遷移であることを示す。
具体的には、人間は算術や論理的推論のタスクを実行するために重要な訓練を必要とするが、LMは以前のシステムにはない言語能力を持っているが、それでも論理的処理に苦戦している。
我々は,計算能力の新たなベンチマークを提出し,人間と15個のLMの実証的評価を行い,最も顕著に,これらの重要なトピックについて慎重に考えるための理論的基盤となる枠組みを提供する。
結果として得られた原理分析は、LMの能力と欠点の説明的説明を提供し、それらの論理能力の拡張に関する実用的な洞察を示唆する。
関連論文リスト
- General Reasoning Requires Learning to Reason from the Get-go [19.90997698310839]
大規模言語モデル(LLM)は、実世界の素晴らしいユーティリティを実証している。
しかし、適応的かつ堅牢に推論できる能力は、脆弱なままだ。
我々は3つの重要な方向から知識と推論を解き放つことを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:51:12Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models [0.13194391758295113]
本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度理にかなっているかを検討する。
様々なデータセットの論理的妥当性を決定するために,エンコーダのみのLMを適度に訓練できることを示す。
これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示す。
論文 参考訳(メタデータ) (2023-12-18T21:42:34Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Dissociating language and thought in large language models [52.39241645471213]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMは形式的能力は驚くほど優れているが、機能的能力のタスクにおける性能はいまだに不明瞭である。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z) - Strong-AI Autoepistemic Robots Build on Intensional First Order Logic [0.0]
我々は、この一階述語論理(IFOL)を現代ロボットの象徴的アーキテクチャとみなす。
本稿では,特殊時相の「Konow$predicate」と「deductive axioms」を導入することで,ロボットの自己認識的推論能力の具体例を示す。
論文 参考訳(メタデータ) (2022-12-14T16:23:56Z) - Learning Neuro-symbolic Programs for Language Guided Robot Manipulation [10.287265801542999]
自然言語命令と入力と出力シーンが与えられた場合、我々の目標は、操作プログラムを出力できるニューロシンボリックモデルを訓練することである。
i) トレーニング中に見られる以上の一般化を制限するが、密集したサブゴールの監督を必要とする概念に対して、手書きのシンボルに依存する。
我々のアプローチはニューロシンボリックであり、言語的および知覚的バリエーションを扱うことができ、中間的な監督を必要としないエンドツーエンドの差別化が可能であり、潜伏したニューラルオブジェクト中心の表現で機能するシンボリック推論構造を利用する。
論文 参考訳(メタデータ) (2022-11-12T12:31:17Z) - DALL-E 2 Fails to Reliably Capture Common Syntactic Processes [0.0]
我々は,DALL-E2が構成性に関連する8つの文法的現象を捉える能力について分析した。
DALL-E 2は構文に整合した意味を確実に推測できないことを示す。
論文 参考訳(メタデータ) (2022-10-23T23:56:54Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Toward the quantification of cognition [0.0]
知覚から行動、記憶に至るまで、ほとんどの人間の認知能力は他の種と共有される。
我々は、人類に広く存在し、他の種を欠いているこれらの能力を特徴づけることを模索している。
論文 参考訳(メタデータ) (2020-08-12T21:45:29Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。