論文の概要: In-context learning agents are asymmetric belief updaters
- arxiv url: http://arxiv.org/abs/2402.03969v1
- Date: Tue, 6 Feb 2024 12:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:54:22.426385
- Title: In-context learning agents are asymmetric belief updaters
- Title(参考訳): 文脈内学習エージェントは非対称信念更新者である
- Authors: Johannes A. Schubert, Akshay K. Jagadish, Marcel Binz, Eric Schulz
- Abstract要約: 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。
LLMは、非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。
- 参考スコア(独自算出の注目度): 8.339209730515343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the in-context learning dynamics of large language models (LLMs)
using three instrumental learning tasks adapted from cognitive psychology. We
find that LLMs update their beliefs in an asymmetric manner and learn more from
better-than-expected outcomes than from worse-than-expected ones. Furthermore,
we show that this effect reverses when learning about counterfactual feedback
and disappears when no agency is implied. We corroborate these findings by
investigating idealized in-context learning agents derived through
meta-reinforcement learning, where we observe similar patterns. Taken together,
our results contribute to our understanding of how in-context learning works by
highlighting that the framing of a problem significantly influences how
learning occurs, a phenomenon also observed in human cognition.
- Abstract(参考訳): 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。
LLMは非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。
さらに,反事実フィードバックを学習するとこの効果は逆転し,機関が含まないと消失することを示した。
メタ強化学習から得られた理想化された文脈内学習エージェントを探索し,類似したパターンを観察することで,これらの知見を裏付ける。
本研究の結果は,文脈内学習の動作の理解に寄与し,問題のフレーミングが学習に大きく影響を与えることを強調し,人間の認知にも見られる現象となった。
関連論文リスト
- Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。
知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。
人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2025-02-11T02:19:13Z) - Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず,LLMは実世界の回帰問題を解くことができ,LLMが内部知識を取得する程度を,文脈内から学習する程度に測定する実験を設計することができることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文 参考訳(メタデータ) (2024-09-06T14:46:37Z) - Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Violation of Expectation via Metacognitive Prompting Reduces Theory of
Mind Prediction Error in Large Language Models [0.0]
大規模言語モデル(LLM)は、心の理論(ToM)タスクにおいて、魅力的な習熟度を示す。
この、観察不能な精神状態を他人に伝える能力は、人間の社会的認知に不可欠であり、人間と人工知能(AI)の主観的関係において同様に重要であることが証明される。
論文 参考訳(メタデータ) (2023-10-10T20:05:13Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - On Isotropy, Contextualization and Learning Dynamics of
Contrastive-based Sentence Representation Learning [8.959800369169798]
コントラスト学習が文レベルの意味論の学習になぜ役立つのかはよく理解されていない。
コントラスト学習は異方性をもたらし,文内類似度が高いことを示す。
として形式化したものが意味論的意味のあるトークンに対して緩和されていることもわかりました。
論文 参考訳(メタデータ) (2022-12-18T21:11:49Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。