論文の概要: Improving Interactive In-Context Learning from Natural Language Feedback
- arxiv url: http://arxiv.org/abs/2602.16066v1
- Date: Tue, 17 Feb 2026 22:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.459911
- Title: Improving Interactive In-Context Learning from Natural Language Feedback
- Title(参考訳): 自然言語フィードバックによる対話型インコンテキスト学習の改善
- Authors: Martin Klissarov, Jonathan Cook, Diego Antognini, Hao Sun, Jingling Li, Natasha Jaques, Claudiu Musat, Edward Grefenstette,
- Abstract要約: 正しいフィードバックに基づいて思考プロセスを適用することは、人間の学習に不可欠な能力である。
本稿では,この対話型インコンテキスト学習能力を,個別で訓練可能なスキルとして扱うフレームワークを提案する。
提案手法によりトレーニングされたモデルにより,言語フィードバックから対話的に学習する能力が劇的に向上することを示す。
- 参考スコア(独自算出の注目度): 28.01292402237836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting one's thought process based on corrective feedback is an essential ability in human learning, particularly in collaborative settings. In contrast, the current large language model training paradigm relies heavily on modeling vast, static corpora. While effective for knowledge acquisition, it overlooks the interactive feedback loops essential for models to adapt dynamically to their context. In this work, we propose a framework that treats this interactive in-context learning ability not as an emergent property, but as a distinct, trainable skill. We introduce a scalable method that transforms single-turn verifiable tasks into multi-turn didactic interactions driven by information asymmetry. We first show that current flagship models struggle to integrate corrective feedback on hard reasoning tasks. We then demonstrate that models trained with our approach dramatically improve the ability to interactively learn from language feedback. More specifically, the multi-turn performance of a smaller model nearly reaches that of a model an order of magnitude larger. We also observe robust out-of-distribution generalization: interactive training on math problems transfers to diverse domains like coding, puzzles and maze navigation. Our qualitative analysis suggests that this improvement is due to an enhanced in-context plasticity. Finally, we show that this paradigm offers a unified path to self-improvement. By training the model to predict the teacher's critiques, effectively modeling the feedback environment, we convert this external signal into an internal capability, allowing the model to self-correct even without a teacher.
- Abstract(参考訳): 修正的フィードバックに基づく思考プロセスの適応は、人間の学習、特に協調的な設定において必須の能力である。
対照的に、現在の大規模言語モデルのトレーニングパラダイムは、巨大な静的コーパスのモデリングに大きく依存しています。
知識獲得には有効であるが、モデルがコンテキストに動的に適応するために必要なインタラクティブなフィードバックループを見落としている。
本研究では,この対話型インコンテキスト学習能力を創発的特性ではなく,独特で訓練可能なスキルとして扱うフレームワークを提案する。
本稿では,情報非対称性によって駆動される単一ターン検証可能なタスクを多ターン・ドクティックなインタラクションに変換するスケーラブルな手法を提案する。
私たちはまず、現在のフラッグシップモデルがハード推論タスクの修正的なフィードバックを統合するのに苦労していることを示します。
そして、我々のアプローチで訓練されたモデルは、言語フィードバックからインタラクティブに学習する能力を劇的に改善することを示した。
より具体的には、より小さなモデルのマルチターン性能は、大きめのオーダーでモデルのマルチターン性能にほぼ達する。
数学問題に関するインタラクティブなトレーニングは、コーディング、パズル、迷路ナビゲーションといった様々な領域に伝達される。
質的な分析から、この改善は文脈内可塑性の強化によるものと考えられる。
最後に、このパラダイムが自己改善への統一パスを提供することを示す。
教師の批判を予測するためにモデルをトレーニングし、フィードバック環境を効果的にモデル化することにより、教師がいなくても、外部信号を内部能力に変換する。
関連論文リスト
- Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文 参考訳(メタデータ) (2026-02-06T18:48:18Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks [47.609417223514605]
この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
実験により,SAIEフレームワークで微調整したモデルでは,従来の微調整手法で訓練したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-14T12:12:25Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。