論文の概要: Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback
- arxiv url: http://arxiv.org/abs/2505.09925v1
- Date: Thu, 15 May 2025 03:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.163638
- Title: Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback
- Title(参考訳): リアルタイム雑音フィードバックによる対話型連続学習の強化
- Authors: Yutao Yang, Jie Zhou, Junsong Li, Qianjun Pan, Bihao Zhan, Qin Chen, Xipeng Qiu, Liang He,
- Abstract要約: 本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
- 参考スコア(独自算出の注目度): 59.768119380109084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an interactive continual learning paradigm where AI models dynamically learn new skills from real-time human feedback while retaining prior knowledge. This paradigm distinctively addresses two major limitations of traditional continual learning: (1) dynamic model updates using streaming, real-time human-annotated data, rather than static datasets with fixed labels, and (2) the assumption of clean labels, by explicitly handling the noisy feedback common in real-world interactions. To tackle these problems, we propose RiCL, a Reinforced interactive Continual Learning framework leveraging Large Language Models (LLMs) to learn new skills effectively from dynamic feedback. RiCL incorporates three key components: a temporal consistency-aware purifier to automatically discern clean from noisy samples in data streams; an interaction-aware direct preference optimization strategy to align model behavior with human intent by reconciling AI-generated and human-provided feedback; and a noise-resistant contrastive learning module that captures robust representations by exploiting inherent data relationships, thus avoiding reliance on potentially unreliable labels. Extensive experiments on two benchmark datasets (FewRel and TACRED), contaminated with realistic noise patterns, demonstrate that our RiCL approach substantially outperforms existing combinations of state-of-the-art online continual learning and noisy-label learning methods.
- Abstract(参考訳): 本稿では,AIモデルを用いた対話型連続学習パラダイムを提案する。
このパラダイムは,(1)固定ラベル付き静的データセットではなく,ストリーミングを用いた動的モデル更新,(2)実世界のインタラクションに共通するノイズの多いフィードバックを明示的に扱うことによって,クリーンラベルの仮定,という,従来の連続学習の2つの大きな限界に特化している。
このような問題に対処するために,大規模言語モデル(LLM)を活用した対話型連続学習フレームワークであるRiCLを提案し,動的フィードバックから新たなスキルを効果的に学習する。
RiCLには3つの重要なコンポーネントが含まれている。データストリーム内のノイズの多いサンプルから自動的にクリーンに識別する時間的整合性対応のパーファイラ、AIの生成した人為的なフィードバックを調整してモデル行動と人間の意図を整合させるインタラクション対応のダイレクトプライオリティ最適化戦略、固有のデータ関係を利用してロバストな表現をキャプチャするノイズ耐性のコントラスト学習モジュール、そして、潜在的に信頼できないラベルへの依存を避ける。
現実的なノイズパターンで汚染された2つのベンチマークデータセット(FewRelとTACRED)に対する大規模な実験は、我々のRiCLアプローチが、最先端のオンライン連続学習とノイズの多いラベル学習の既存の組み合わせを著しく上回っていることを実証している。
関連論文リスト
- Few-Shot, No Problem: Descriptive Continual Relation Extraction [27.296604792388646]
AIシステムが現実世界のドメインにおける進化する関係を識別し、適応できるようにする上で、わずかなショットの連続関係抽出は重要な課題である。
従来のメモリベースのアプローチは、しばしば限られたサンプルに過度に適合し、古い知識の強化に失敗する。
本稿では,関係関係記述を生成するために,大規模言語モデルから始まる新しい検索ベースソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-27T23:44:30Z) - CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。
本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。
異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:34:55Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Ex-Model: Continual Learning from a Stream of Trained Models [12.27992745065497]
連続的な学習システムは、訓練されたモデルの形式で圧縮された情報の可用性を活用するべきであると論じる。
エージェントが生データの代わりに以前に訓練されたモデルのシーケンスから学習する「Ex-Model Continual Learning」(Ex-Model Continual Learning)という新しいパラダイムを導入し、形式化する。
論文 参考訳(メタデータ) (2021-12-13T09:46:16Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。