Fugu-MT 論文翻訳(概要): In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models

論文の概要: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models

arxiv url: http://arxiv.org/abs/2409.15454v1
Date: Mon, 23 Sep 2024 18:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 13:10:19.033262
Title: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models
Title（参考訳）: In-Context Learningは信頼できる推論を排除しないかもしれない:事前訓練された言語モデルにおけるA-Not-Bエラー
Authors: Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You,
Abstract要約: A-Not-Bエラー(A-Not-B error)は、乳幼児にみられる現象で、よく観察された状態が変化したにもかかわらず、前報の振る舞いを繰り返す現象である。このことは、抑止力の欠如、つまり習慣的または衝動的な反応を止める能力の欠如を浮き彫りにする。 Llama3-8bのような最先端のLLMは、コンテキスト内学習(ICL)と一貫してうまく動作するが、エラーを発生させ、コンテキストが自明に変化すると、タスクの推論において最大83.3%の大幅な低下を示す。
参考スコア（独自算出の注目度）: 12.700065865071519
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in artificial intelligence have led to the creation of highly capable large language models (LLMs) that can perform tasks in a human-like manner. However, LLMs exhibit only infant-level cognitive abilities in certain areas. One such area is the A-Not-B error, a phenomenon seen in infants where they repeat a previously rewarded behavior despite well-observed changed conditions. This highlights their lack of inhibitory control -- the ability to stop a habitual or impulsive response. In our work, we design a text-based multi-choice QA scenario similar to the A-Not-B experimental settings to systematically test the inhibitory control abilities of LLMs. We found that state-of-the-art LLMs (like Llama3-8b) perform consistently well with in-context learning (ICL) but make errors and show a significant drop of as many as 83.3% in reasoning tasks when the context changes trivially. This suggests that LLMs only have inhibitory control abilities on par with human infants in this regard, often failing to suppress the previously established response pattern during ICL.
Abstract（参考訳）: 近年の人工知能の進歩は、人間のような方法でタスクを実行できる高機能な大規模言語モデル(LLM)の作成につながっている。しかし、LSMは特定の領域において乳幼児レベルの認知能力のみを示す。 A-Not-Bエラー(A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error)は、幼児にみられる現象である。このことは、抑止力の欠如、つまり習慣的または衝動的な反応を止める能力の欠如を浮き彫りにする。本研究では,LLMの抑制制御能力を体系的にテストするために,A-Not-B実験と類似したテキストベースのマルチ選択QAシナリオを設計する。 Llama3-8bのような最先端のLLMは、コンテキスト内学習(ICL)と一貫してうまく機能するが、エラーが発生し、コンテキストが自明に変化すると、タスクの推論において最大83.3%の大幅な低下を示す。このことは、LSMは、この点においてヒトの幼児に匹敵する抑制的制御能力しか持たず、しばしばICL中に確立された応答パターンを抑えることができないことを示唆している。

関連論文リスト

Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs [0.0]
自己補正は大規模言語モデル(LLM)にとって重要な機能である LLMはユーザ入力における誤りを識別できるが、体系的な「自己補正ブラインドスポット」を提示する。 14のモデルをテストすると、平均64.5%の失明率が得られる。注目すべきは、単に"Wait"を追加するだけで盲点が89.3%減少し、その能力は存在するがアクティベーションが必要であることを示唆している。
論文参考訳（メタデータ） (2025-07-03T16:41:30Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文参考訳（メタデータ） (2024-10-20T07:22:23Z)
Automatic Curriculum Expert Iteration for Reliable LLM Reasoning [60.60318625779015]
幻覚(すなわち、可塑性だが不正確な内容を生成する)と怠慢(すなわち過剰な拒絶や「私は知らない」のデフォルト)は、LLM推論における主要な課題として残る。幻覚を減らそうとする現在の取り組みは、主に知識に基づくタスクにおける事実的誤りに焦点を当てており、しばしば欠陥推論に関連する幻覚を無視している。本稿では,LLM推論を強化し,モデルの能力に応答する自動カリキュラムエキスパートイテレーション(Auto-CEI)を提案する。
論文参考訳（メタデータ） (2024-10-10T05:43:07Z)
Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。画像生成機能の導入により、より包括的で汎用的なAIツールとなった。現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文参考訳（メタデータ） (2024-08-27T14:40:16Z)
Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。認知・生態的枠組みとしてメタ認知ミオピアを提案する。我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文参考訳（メタデータ） (2024-08-10T14:43:57Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。