Fugu-MT 論文翻訳(概要): In-context learning agents are asymmetric belief updaters

論文の概要: In-context learning agents are asymmetric belief updaters

arxiv url: http://arxiv.org/abs/2402.03969v1
Date: Tue, 6 Feb 2024 12:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 14:54:22.426385
Title: In-context learning agents are asymmetric belief updaters
Title（参考訳）: 文脈内学習エージェントは非対称信念更新者である
Authors: Johannes A. Schubert, Akshay K. Jagadish, Marcel Binz, Eric Schulz
Abstract要約: 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。 LLMは、非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。
参考スコア（独自算出の注目度）: 8.339209730515343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the in-context learning dynamics of large language models (LLMs) using three instrumental learning tasks adapted from cognitive psychology. We find that LLMs update their beliefs in an asymmetric manner and learn more from better-than-expected outcomes than from worse-than-expected ones. Furthermore, we show that this effect reverses when learning about counterfactual feedback and disappears when no agency is implied. We corroborate these findings by investigating idealized in-context learning agents derived through meta-reinforcement learning, where we observe similar patterns. Taken together, our results contribute to our understanding of how in-context learning works by highlighting that the framing of a problem significantly influences how learning occurs, a phenomenon also observed in human cognition.
Abstract（参考訳）: 認知心理学から適応した3つの楽器学習課題を用いて,大規模言語モデル(LLM)の文脈内学習ダイナミクスについて検討した。 LLMは非対称な方法で信念を更新し、予測された結果よりも予測された結果からより多くを学ぶ。さらに,反事実フィードバックを学習するとこの効果は逆転し,機関が含まないと消失することを示した。メタ強化学習から得られた理想化された文脈内学習エージェントを探索し,類似したパターンを観察することで,これらの知見を裏付ける。本研究の結果は,文脈内学習の動作の理解に寄与し,問題のフレーミングが学習に大きく影響を与えることを強調し,人間の認知にも見られる現象となった。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Can you see how I learn? Human observers' inferences about Reinforcement Learning agents' learning processes [1.6874375111244329]
強化学習(RL)エージェントは、人間の観察者によって直感的に解釈できない学習行動を示すことが多い。この研究は、エージェントの学習プロセスに対する人間の観察者の理解の要因に関するデータ駆動的な理解を提供する。
論文参考訳（メタデータ） (2025-06-16T15:04:27Z)
Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文参考訳（メタデータ） (2025-06-16T13:24:50Z)
Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文参考訳（メタデータ） (2025-02-11T02:19:13Z)
Learning vs Retrieval: The Role of In-Context Examples in Regression with Large Language Models [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。まず,LLMは実世界の回帰問題を解くことができ,LLMが内部知識を取得する程度を,文脈内から学習する程度に測定する実験を設計することができることを示す。本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文参考訳（メタデータ） (2024-09-06T14:46:37Z)
Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文参考訳（メタデータ） (2024-05-24T12:04:54Z)
Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文参考訳（メタデータ） (2024-03-05T09:09:15Z)
How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文参考訳（メタデータ） (2024-02-25T10:13:04Z)
Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文参考訳（メタデータ） (2024-02-20T14:43:39Z)
The dynamic interplay between in-context and in-weight learning in humans and neural networks [15.744573869783972]
In-context Learning" (ICL) は、ニューラルネットワークに固有のIWLと共存可能な、根本的に異なる学習特性を持たせることができることを示す。我々の研究は、創発的なICLが、そのネイティブなIWLと共存可能な、根本的に異なる学習特性を持つニューラルネットワークをどのように装備できるかを示している。
論文参考訳（メタデータ） (2024-02-13T18:55:27Z)
Violation of Expectation via Metacognitive Prompting Reduces Theory of Mind Prediction Error in Large Language Models [0.0]
大規模言語モデル(LLM)は、心の理論(ToM)タスクにおいて、魅力的な習熟度を示す。この、観察不能な精神状態を他人に伝える能力は、人間の社会的認知に不可欠であり、人間と人工知能(AI)の主観的関係において同様に重要であることが証明される。
論文参考訳（メタデータ） (2023-10-10T20:05:13Z)
Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文参考訳（メタデータ） (2023-06-13T08:43:13Z)
A Message Passing Perspective on Learning Dynamics of Contrastive Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文参考訳（メタデータ） (2023-03-08T08:27:31Z)
On Isotropy, Contextualization and Learning Dynamics of Contrastive-based Sentence Representation Learning [8.959800369169798]
コントラスト学習が文レベルの意味論の学習になぜ役立つのかはよく理解されていない。コントラスト学習は異方性をもたらし,文内類似度が高いことを示す。として形式化したものが意味論的意味のあるトークンに対して緩和されていることもわかりました。
論文参考訳（メタデータ） (2022-12-18T21:11:49Z)
Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文参考訳（メタデータ） (2022-12-10T05:07:30Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。