論文の概要: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2409.15454v1
- Date: Mon, 23 Sep 2024 18:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:10:19.033262
- Title: In-Context Learning May Not Elicit Trustworthy Reasoning: A-Not-B Errors in Pretrained Language Models
- Title(参考訳): In-Context Learningは信頼できる推論を排除しないかもしれない:事前訓練された言語モデルにおけるA-Not-Bエラー
- Authors: Pengrui Han, Peiyang Song, Haofei Yu, Jiaxuan You,
- Abstract要約: A-Not-Bエラー(A-Not-B error)は、乳幼児にみられる現象で、よく観察された状態が変化したにもかかわらず、前報の振る舞いを繰り返す現象である。
このことは、抑止力の欠如、つまり習慣的または衝動的な反応を止める能力の欠如を浮き彫りにする。
Llama3-8bのような最先端のLLMは、コンテキスト内学習(ICL)と一貫してうまく動作するが、エラーを発生させ、コンテキストが自明に変化すると、タスクの推論において最大83.3%の大幅な低下を示す。
- 参考スコア(独自算出の注目度): 12.700065865071519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in artificial intelligence have led to the creation of highly capable large language models (LLMs) that can perform tasks in a human-like manner. However, LLMs exhibit only infant-level cognitive abilities in certain areas. One such area is the A-Not-B error, a phenomenon seen in infants where they repeat a previously rewarded behavior despite well-observed changed conditions. This highlights their lack of inhibitory control -- the ability to stop a habitual or impulsive response. In our work, we design a text-based multi-choice QA scenario similar to the A-Not-B experimental settings to systematically test the inhibitory control abilities of LLMs. We found that state-of-the-art LLMs (like Llama3-8b) perform consistently well with in-context learning (ICL) but make errors and show a significant drop of as many as 83.3% in reasoning tasks when the context changes trivially. This suggests that LLMs only have inhibitory control abilities on par with human infants in this regard, often failing to suppress the previously established response pattern during ICL.
- Abstract(参考訳): 近年の人工知能の進歩は、人間のような方法でタスクを実行できる高機能な大規模言語モデル(LLM)の作成につながっている。
しかし、LSMは特定の領域において乳幼児レベルの認知能力のみを示す。
A-Not-Bエラー(A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error, A-Not-B error)は、幼児にみられる現象である。
このことは、抑止力の欠如、つまり習慣的または衝動的な反応を止める能力の欠如を浮き彫りにする。
本研究では,LLMの抑制制御能力を体系的にテストするために,A-Not-B実験と類似したテキストベースのマルチ選択QAシナリオを設計する。
Llama3-8bのような最先端のLLMは、コンテキスト内学習(ICL)と一貫してうまく機能するが、エラーが発生し、コンテキストが自明に変化すると、タスクの推論において最大83.3%の大幅な低下を示す。
このことは、LSMは、この点においてヒトの幼児に匹敵する抑制的制御能力しか持たず、しばしばICL中に確立された応答パターンを抑えることができないことを示唆している。
関連論文リスト
- Large Language Models have Intrinsic Self-Correction Ability [16.831123666582755]
大規模言語モデルは、性能劣化を引き起こす幻覚に悩まされる。
LLMのパフォーマンスを改善するための有望な解決策の1つは、LLMに世代ごとの回答の修正を求めることである。
内在的な自己補正は、外部知識を活用できないため、有望な方向と考えられる。
論文 参考訳(メタデータ) (2024-06-21T22:29:40Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.89346248535922]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。