論文の概要: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
- arxiv url: http://arxiv.org/abs/2406.02061v1
- Date: Tue, 4 Jun 2024 07:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:30:56.880878
- Title: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
- Title(参考訳): Alice in Wonderland: State-Of-the-Art Large Language Modelにおける完全推論のブレークダウンを示す単純なタスク
- Authors: Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti, Jenia Jitsev,
- Abstract要約: 利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
- 参考スコア(独自算出の注目度): 13.532180752491954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are often described as being instances of foundation models - that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models also express strong overconfidence in their wrong solutions, while providing often non-sensical "reasoning"-like explanations akin to confabulations to justify and backup the validity of their clearly failed responses, making them sound plausible. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs, Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば基礎モデルの例として記述される。すなわち、様々なタスクや状況に対して、ほとんどショーやゼロショットの方法で強く移行するモデルであると同時に、事前トレーニングスケールを拡大する際の関数改善を予測するスケーリング法則を示す。
これらの異なる機能やタスクが優れているという主張は、そのようなモデルに対して高いスコアを示す標準化されたベンチマークの様々なセットにまたがる測定に依存する。
ここでは,人間によって容易に解ける簡潔で簡潔な自然言語で定式化された従来の共通感覚問題を用いて,強機能を主張する最大規模で訓練された最先端モデルの機能と推論能力の劇的な分解を実演する。
モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明は、明らかに失敗した応答の妥当性を正当化し、バックアップすることに似ている。
正しいソリューションを得るための様々な標準的な介入、例えば、様々な種類の強化プロンプト、あるいは、複数のステップの再評価によって間違ったソリューションを再考するようモデルに促す、といったことは失敗します。
これらの最初の観察は、科学・技術界に、現在のLLMの主張する能力の緊急な再評価を刺激するものであり、このような再評価は、現在の最先端の評価手順やベンチマークによって明らかに発見されないような基本的な理由づけ欠陥を適切に検出できるような、標準化されたベンチマークを作成するための共通の行動も必要である。
論文における実験の再現コードと生の実験データはhttps://github.com/LAION-AI/AIWで見ることができる。
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。
付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models [29.763745375790933]
大規模言語モデル(LLM)はプロンプトに敏感であり、別の同義語表現やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。
我々は,LLMの使いやすさを評価し,実際の使用状況をシミュレートしたE-Benchを構築した。
論文 参考訳(メタデータ) (2024-06-16T14:08:30Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - TsmoBN: Interventional Generalization for Unseen Clients in Federated
Learning [23.519212374186232]
本研究では,分散学習パラダイムにおけるモデル一般化の課題を説明するために,学習構造因果モデル(SCM)を構築した。
FLモデルをテストクライアントに一般化するために,テスト固有および運動量追跡バッチ正規化(TsmoBN)を用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。