論文の概要: In-context learning agents are asymmetric belief updaters
- arxiv url: http://arxiv.org/abs/2402.03969v1
- Date: Tue, 6 Feb 2024 12:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:54:22.426385
- Title: In-context learning agents are asymmetric belief updaters
- Title(参考訳): 文脈内学習エージェントは非対称信念更新者である
- Authors: Johannes A. Schubert, Akshay K. Jagadish, Marcel Binz, Eric Schulz
- Abstract要約: 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。
LLMは、非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。
- 参考スコア(独自算出の注目度): 8.339209730515343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the in-context learning dynamics of large language models (LLMs)
using three instrumental learning tasks adapted from cognitive psychology. We
find that LLMs update their beliefs in an asymmetric manner and learn more from
better-than-expected outcomes than from worse-than-expected ones. Furthermore,
we show that this effect reverses when learning about counterfactual feedback
and disappears when no agency is implied. We corroborate these findings by
investigating idealized in-context learning agents derived through
meta-reinforcement learning, where we observe similar patterns. Taken together,
our results contribute to our understanding of how in-context learning works by
highlighting that the framing of a problem significantly influences how
learning occurs, a phenomenon also observed in human cognition.
- Abstract(参考訳): 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。
LLMは非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。
さらに,反事実フィードバックを学習するとこの効果は逆転し,機関が含まないと消失することを示した。
メタ強化学習から得られた理想化された文脈内学習エージェントを探索し,類似したパターンを観察することで,これらの知見を裏付ける。
本研究の結果は,文脈内学習の動作の理解に寄与し,問題のフレーミングが学習に大きく影響を与えることを強調し,人間の認知にも見られる現象となった。
関連論文リスト
- Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Violation of Expectation via Metacognitive Prompting Reduces Theory of
Mind Prediction Error in Large Language Models [0.0]
大規模言語モデル(LLM)は、心の理論(ToM)タスクにおいて、魅力的な習熟度を示す。
この、観察不能な精神状態を他人に伝える能力は、人間の社会的認知に不可欠であり、人間と人工知能(AI)の主観的関係において同様に重要であることが証明される。
論文 参考訳(メタデータ) (2023-10-10T20:05:13Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - On Isotropy, Contextualization and Learning Dynamics of
Contrastive-based Sentence Representation Learning [8.959800369169798]
コントラスト学習が文レベルの意味論の学習になぜ役立つのかはよく理解されていない。
コントラスト学習は異方性をもたらし,文内類似度が高いことを示す。
として形式化したものが意味論的意味のあるトークンに対して緩和されていることもわかりました。
論文 参考訳(メタデータ) (2022-12-18T21:11:49Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。