Fugu-MT 論文翻訳(概要): Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

論文の概要: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

arxiv url: http://arxiv.org/abs/2406.02061v5
Date: Wed, 05 Mar 2025 01:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:39.587887
Title: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
Title（参考訳）: Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク
Authors: Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev,
Abstract要約: 大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
参考スコア（独自算出の注目度）: 13.532180752491954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are often described as instances of foundation models that possess strong generalization obeying scaling laws, and therefore transfer robustly across various conditions in few- or zero-shot manner. Such claims rely on standardized benchmarks that suppose to measure generalization and reasoning, where state-of-the-art (SOTA) models score high. We demonstrate here a dramatic breakdown of generalization and basic reasoning of all SOTA models claiming strong function, including large scale advanced models like GPT-4 or Claude 3 Opus, using a simple, short common sense math problem formulated in concise natural language, easily solvable by humans (AIW problem). The breakdown is dramatic as it manifests on a simple problem in both low average performance and strong performance fluctuations on natural variations in problem template that do not change either problem structure or its difficulty at all. By testing models on further control problems with similar form, we rule out that breakdown might be rooted in minor low-level issues like natural language or numbers parsing. We also observe strong overconfidence in the wrong solutions, expressed in form of plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like chain-of-thought prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We use these observations to stimulate re-assessment of the capabilities of current generation of LLMs as claimed by standardized benchmarks. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such deficits in generalization and reasoning that obviously remain undiscovered by current state-of-the-art evaluation procedures, where SOTA LLMs manage to score high. Code: https://github.com/LAION-AI/AIW
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば、スケーリング法則に従って強力な一般化を持つ基礎モデルの例として記述され、したがって、少数またはゼロショットの方法で様々な条件にわたって堅牢に転送される。このような主張は、一般化と推論を測る標準ベンチマークに依存しており、最新式SOTA(State-of-the-art(英語版))モデルは高いスコアを得る。本稿では, GPT-4 や Claude 3 Opus のような大規模高度なモデルを含む強力な関数を主張する全ての SOTA モデルの一般化と基本的推論を, 簡潔で簡潔な自然言語で定式化され, 人間の解き易い数学問題(AIW 問題)を用いて, 劇的な解析を行った。低平均性能と、問題構造や難易度がまったく変化しない問題テンプレートの自然変動に関する強い性能変動の両方において、単純な問題に現れているため、その分解は劇的である。同様の形のさらなる制御問題に関するモデルをテストすることによって、ブレークダウンは自然言語や数値解析のような小さな低レベル問題に根ざす可能性があると、我々は結論付けている。また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。正しいソリューションを得るための様々な標準的な介入、例えばチェーン・オブ・ソート・プロンプト、あるいはモデルに、複数のステップの再評価によって間違ったソリューションを再考するよう促す、といったことは失敗します。我々はこれらの観測結果を用いて、標準化されたベンチマークによって要求される現在のLLMの能力の再評価を刺激する。このような再評価は、SOTA LLMが高得点を達成している現在の最先端評価手順によって明らかに発見されていないような一般化と推論において、これらの欠陥を適切に検出できるような標準化されたベンチマークを作成するための共通の行動も要求される。コード:https://github.com/LAION-AI/AIW

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Reasoning Multimodal Large Language Model: Data Contamination and Dynamic Evaluation [9.434966074326056]
MLLM(Multimodal Large Language Models)は、視覚ベースのベンチマーク性能を示すが、真の一般化を隠蔽するデータ汚染リスクへの懸念が増大している。静的ベンチマークを超えてMLLMの一般化を厳格に評価する新しい動的評価フレームワークを提案する。シミュレーションテストデータ(極端汚染)の微調整はタスク固有の性能を大幅に向上させるが、全体的な一般化には悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2025-06-08T15:52:38Z)
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文参考訳（メタデータ） (2025-04-17T22:16:30Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [29.437125712259046]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-09T17:58:17Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文参考訳（メタデータ） (2024-10-20T20:07:36Z)
Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-13T18:01:49Z)
E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models [29.763745375790933]
大規模言語モデル(LLM)はプロンプトに敏感であり、別の同義語表現やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。我々は,LLMの使いやすさを評価し,実際の使用状況をシミュレートしたE-Benchを構築した。
論文参考訳（メタデータ） (2024-06-16T14:08:30Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。 OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Large Language Models Struggle with Unreasonability in Math Problems [41.970853209666224]
大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-28T12:04:28Z)
A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。 GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-02T21:48:50Z)
WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文参考訳（メタデータ） (2023-11-27T15:38:17Z)
Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2023-05-28T13:19:12Z)
Shortcomings of Question Answering Based Factuality Frameworks for Error Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文参考訳（メタデータ） (2022-10-13T05:23:38Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Pushing the Limits of Rule Reasoning in Transformers through Natural Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文参考訳（メタデータ） (2021-12-16T17:47:20Z)
TsmoBN: Interventional Generalization for Unseen Clients in Federated Learning [23.519212374186232]
本研究では,分散学習パラダイムにおけるモデル一般化の課題を説明するために,学習構造因果モデル(SCM)を構築した。 FLモデルをテストクライアントに一般化するために,テスト固有および運動量追跡バッチ正規化(TsmoBN)を用いた簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2021-10-19T13:46:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。