論文の概要: Learning to Learn from Language Feedback with Social Meta-Learning
- arxiv url: http://arxiv.org/abs/2602.16488v1
- Date: Wed, 18 Feb 2026 14:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.611718
- Title: Learning to Learn from Language Feedback with Social Meta-Learning
- Title(参考訳): ソーシャルメタ学習による言語フィードバックからの学習
- Authors: Jonathan Cook, Diego Antognini, Martin Klissarov, Claudiu Musat, Edward Grefenstette,
- Abstract要約: 大きな言語モデル(LLM)は、会話のコンテキスト内で修正的なフィードバックから学ぶのに苦労することが多い。
私たちは、人間の社会的メタ学習からインスピレーションを受けます。
我々は、教育対話のシミュレーションにおいて、LLMを指導し、言語フィードバックから学習する。
- 参考スコア(独自算出の注目度): 17.85279270632852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often struggle to learn from corrective feedback within a conversational context. They are rarely proactive in soliciting this feedback, even when faced with ambiguity, which can make their dialogues feel static, one-sided, and lacking the adaptive qualities of human conversation. To address these limitations, we draw inspiration from social meta-learning (SML) in humans - the process of learning how to learn from others. We formulate SML as a finetuning methodology, training LLMs to solicit and learn from language feedback in simulated pedagogical dialogues, where static tasks are converted into interactive social learning problems. SML effectively teaches models to use conversation to solve problems they are unable to solve in a single turn. This capability generalises across domains; SML on math problems produces models that better use feedback to solve coding problems and vice versa. Furthermore, despite being trained only on fully-specified problems, these models are better able to solve underspecified tasks where critical information is revealed over multiple turns. When faced with this ambiguity, SML-trained models make fewer premature answer attempts and are more likely to ask for the information they need. This work presents a scalable approach to developing AI systems that effectively learn from language feedback.
- Abstract(参考訳): 大きな言語モデル(LLM)は、会話のコンテキスト内で修正的なフィードバックから学ぶのに苦労することが多い。
あいまいさに直面しても、会話を静的に感じさせ、一方的に感じさせ、人間の会話の適応性に欠ける、このフィードバックを誘うことはめったにない。
これらの制限に対処するために、私たちは人間の社会メタ学習(SML)からインスピレーションを得ます。
我々はSMLを微調整手法として定式化し、静的タスクが対話型社会学習問題に変換されるシミュレートされた教育対話において、言語フィードバックを要請し、学習するためにLLMを訓練する。
SMLは、1ターンで解決できない問題を解決するために、モデルに会話を使うことを効果的に教える。
数学問題におけるSMLは、コーディング問題を解決するためにフィードバックをよりよく利用するモデルを作り、その逆も生成する。
さらに、完全に特定された問題のみにのみ訓練されているにもかかわらず、これらのモデルは、複数のターンで重要な情報が明らかにされる不特定タスクを解決することができる。
このような曖昧さに直面した場合、SMLでトレーニングされたモデルでは、未熟な解答の試みが少なくなり、必要な情報を求める可能性が高くなる。
この研究は、言語フィードバックから効果的に学習するAIシステムを開発するためのスケーラブルなアプローチを示す。
関連論文リスト
- Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident [0.8564319625930894]
大規模言語モデル(LLM)は、AIベースの学習システムにますます組み込まれている。彼らは、初心者の推論とメタ認知的判断を忠実にモデル化できるだろうか?
学生のヒント使用,試行,問題文脈の問題解決ログを用いた化学チュータリング問題からの630のシンクアラウド発話を用いて,LSMを初心者として評価した。
そこで本研究では,LLM生成推論と人間の学習者発話を,最小限で拡張された文脈的プロンプトで比較し,ステップレベルの学習者成功を予測するモデルの能力を評価する。
論文 参考訳(メタデータ) (2026-02-01T04:46:38Z) - Item-Language Model for Conversational Recommendation [24.00379652557269]
ユーザインタラクション信号をエンコードするテキスト整列アイテム表現を生成するために,ILM(Item-Language Model)を提案する。
項目エンコーダにおける言語アライメントの重要性とユーザインタラクション知識の両立を実証する広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-05T01:35:50Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。