Fugu-MT 論文翻訳(概要): Faith and Fate: Limits of Transformers on Compositionality

論文の概要: Faith and Fate: Limits of Transformers on Compositionality

arxiv url: http://arxiv.org/abs/2305.18654v1
Date: Mon, 29 May 2023 23:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 18:55:38.726832
Title: Faith and Fate: Limits of Transformers on Compositionality
Title（参考訳）: 信仰とフェイト:構成性に関するトランスフォーマーの限界
Authors: Nouha Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jian, Bill Yuchen Lin, Peter West, Chandra Bhagavatula, Ronan Le Bras, Jena D. Hwang, Soumya Sanyal, Sean Welleck, Xiang Ren, Allyson Ettinger, Zaid Harchaoui, Yejin Choi
Abstract要約: 3つの代表的な構成課題におけるトランスフォーマーモデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験の結果,多段階合成推論を線形化部分グラフマッチングに還元することにより,変換器が構成課題を解くことが示唆された。
参考スコア（独自算出の注目度）: 86.63024563529716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer large language models (LLMs) have sparked admiration for their exceptional performance on tasks that demand intricate multi-step reasoning. Yet, these models simultaneously show failures on surprisingly trivial problems. This begs the question: Are these errors incidental, or do they signal more substantial limitations? In an attempt to demystify Transformers, we investigate the limits of these models across three representative compositional tasks -- multi-digit multiplication, logic grid puzzles, and a classic dynamic programming problem. These tasks require breaking problems down into sub-steps and synthesizing these steps into a precise answer. We formulate compositional tasks as computation graphs to systematically quantify the level of complexity, and break down reasoning steps into intermediate sub-procedures. Our empirical findings suggest that Transformers solve compositional tasks by reducing multi-step compositional reasoning into linearized subgraph matching, without necessarily developing systematic problem-solving skills. To round off our empirical study, we provide theoretical arguments on abstract multi-step reasoning problems that highlight how Transformers' performance will rapidly decay with increased task complexity.
Abstract（参考訳）: transformer large language models (llms) は、複雑なマルチステップ推論を必要とするタスクにおける例外的なパフォーマンスを賞賛している。しかし、これらのモデルは驚くほど自明な問題に対して同時に失敗を示す。これらのエラーは偶発的か、それともより重大な制限を示すのか? トランスフォーマーを非神秘化しようとする試みとして,多桁乗算,論理格子パズル,古典的な動的プログラミング問題という,3つの代表的な構成タスクにまたがるモデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。合成タスクを計算グラフとして定式化し、複雑性のレベルを体系的に定量化し、推論ステップを中間のサブ手続きに分割する。実験により,多段階合成推論を線形化部分グラフマッチングに還元することで,トランスフォーマーが構成課題を解くことを示唆した。実験的な研究をまとめるために、トランスフォーマーのパフォーマンスがタスクの複雑さの増大とともに急速に低下することを示す抽象的な多段階推論問題について理論的に論じる。

関連論文リスト

MixReasoning: Switching Modes to Think [79.70845484191543]
推論モデルは、ステップバイステップで問題に取り組むことでパフォーマンスを向上させる。あらゆるステップに拡張推論を適用することは、かなりの冗長性をもたらす。一つの応答内で推論の深さを動的に調整するフレームワークであるMixReasoningを提案する。
論文参考訳（メタデータ） (2025-10-07T15:46:34Z)
Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文参考訳（メタデータ） (2025-06-23T17:51:40Z)
LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-05T09:40:47Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Fast-Slow-Thinking: Complex Task Solving with Large Language Models [49.98959729052245]
本稿では,FST(Fast-Slow-Thinking')と呼ばれるタスク分解手法を提案する。 FTでは、LLMは元のタスクの制約を取り除くよう促されるため、汎用的で簡潔なタスクに単純化される。 STでは、FTで取り除かれた制約をリコールするため、LLMはFTで生成された回答を改善し、元のタスクの要求を満たす。
論文参考訳（メタデータ） (2025-04-11T16:57:36Z)
Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs [26.494798719138526]
大規模言語モデルの推論の取り組みは,問題複雑性とともにどのようにスケールするかを検討する。この結果から, 推理作業は問題の大きさに応じて規模が大きくなるが, 重大な問題にのみ対処できることが示唆された。
論文参考訳（メタデータ） (2025-03-19T11:13:51Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Complexity Control Facilitates Reasoning-Based Compositional Generalization in Transformers [10.206921909332006]
本研究では,コンポジションタスクにおけるトランスフォーマーの振舞いのメカニズムについて検討する。複雑性制御戦略は,分布外(推論に基づく解)を一般化するプリミティブレベルのルールを学習するか,あるいは記憶されたマッピング(メモリベースの解)にのみ依存するかに影響を及ぼす。
論文参考訳（メタデータ） (2025-01-15T02:54:52Z)
Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文参考訳（メタデータ） (2024-10-25T17:56:24Z)
Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文参考訳（メタデータ） (2024-10-18T06:25:27Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文参考訳（メタデータ） (2024-05-26T19:33:23Z)
Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文参考訳（メタデータ） (2024-02-08T16:23:29Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。 RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。 GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文参考訳（メタデータ） (2023-06-12T06:34:16Z)
Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective [39.47116013338394]
CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
論文参考訳（メタデータ） (2023-05-24T17:59:21Z)
Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文参考訳（メタデータ） (2022-09-20T16:42:59Z)
Pushing the Limits of Rule Reasoning in Transformers through Natural Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文参考訳（メタデータ） (2021-12-16T17:47:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。