論文の概要: CoAct: Co-Active LLM Preference Learning with Human-AI Synergy
- arxiv url: http://arxiv.org/abs/2604.17501v1
- Date: Sun, 19 Apr 2026 15:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.557899
- Title: CoAct: Co-Active LLM Preference Learning with Human-AI Synergy
- Title(参考訳): CoAct:Human-AI Synergyを用いた共同活動型LLM選好学習
- Authors: Ruiyao Xu, Mihir Parmar, Tiankai Yang, Zhengyu Hu, Yue Zhao, Kaize Ding,
- Abstract要約: CoActは,戦略的人間とAIのコラボレーションを通じて,自己回帰と積極的学習を組み合わせた,新たなフレームワークである。
CoActは、GSM8Kで+13.25%、MATHで+8.19%、WebInstructで+13.16%の平均的な改善を実現している。
- 参考スコア(独自算出の注目度): 29.885017192888238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from preference-based feedback has become an effective approach for aligning LLMs across diverse tasks. However, high-quality human-annotated preference data remains expensive and scarce. Existing methods address this challenge through either self-rewarding, which scales by using purely AI-generated labels but risks unreliability, or active learning, which ensures quality through oracle annotation but cannot fully leverage unlabeled data. In this paper, we present CoAct, a novel framework that synergistically combines self-rewarding and active learning through strategic human-AI collaboration. CoAct leverages self-consistency to identify both reliable self-labeled data and samples that require oracle verification. Additionally, oracle feedback guides the model to generate new instructions within its solvable capability. Evaluated on three reasoning benchmarks across two model families, CoAct achieves average improvements of +13.25% on GSM8K, +8.19% on MATH, and +13.16% on WebInstruct, consistently outperforming all baselines.
- Abstract(参考訳): 好みに基づくフィードバックから学ぶことは、様々なタスクにまたがるLLMの整合化に有効なアプローチとなっている。
しかし、高品質な人手による好みデータはまだ高価で乏しい。
既存の方法では、純粋なAI生成ラベルを使用することでスケールするが、信頼性を損なうリスクがあるセルフリワード(self-rewarding)、あるいは、オラクルアノテーションを通じて品質を保証するが、ラベルなしのデータを完全に活用できないアクティブラーニング(Active Learning)のいずれかによって、この課題に対処する。
本稿では,人間とAIの戦略的コラボレーションを通じて,自己回帰と積極的学習を相乗的に組み合わせた新しいフレームワークであるCoActを提案する。
CoActは自己整合性を活用して、信頼性の高い自己ラベル付きデータと、オラクル検証を必要とするサンプルの両方を識別する。
さらに、オラクルフィードバックは、その解決可能な能力の中で新しい命令を生成するようモデルに誘導する。
2つのモデルファミリにわたる3つの推論ベンチマークで評価され、CoActはGSM8Kで+13.25%、MATHで+8.19%、WebInstructで+13.16%の平均的な改善を達成した。
関連論文リスト
- AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z) - Breaking the SSL-AL Barrier: A Synergistic Semi-Supervised Active Learning Framework for 3D Object Detection [34.049483237480615]
従来のアクティブな学習アプローチは、データ選択の初期モデルをトレーニングするために、少量のラベル付きデータに依存しています。
本稿では,S-SSALと呼ばれるSynergistic Semi-Supervised Active Learningフレームワークを提案する。
S-SSALは全データセットでトレーニングされたモデルに匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2025-01-26T08:43:59Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Active Learning Guided by Efficient Surrogate Learners [25.52920030051264]
1つのデータポイントが新しいラベルを受け取るたびに、ディープラーニングモデルを再トレーニングするのは現実的ではない。
本稿では,ニューラルネットワークの主学習者とともに,ガウス過程の力を利用する新しい能動学習アルゴリズムを提案する。
提案モデルでは,新しいデータインスタンス毎のサロゲート学習者を積極的に更新し,ニューラルネットワークの連続学習ダイナミクスをエミュレートし,活用する。
論文 参考訳(メタデータ) (2023-01-07T01:35:25Z) - On the Marginal Benefit of Active Learning: Does Self-Supervision Eat
Its Cake? [31.563514432259897]
本稿では,自己指導型事前学習,能動的学習,一貫性型自己学習を統合した新しい枠組みを提案する。
i) 自己指導型事前学習は、特に少数レーベル体制において、セミ教師付き学習を大幅に改善する。
我々は、最先端のS4L技術と組み合わせることで、最先端のアクティブな学習アルゴリズムのさらなるメリットを観察できない。
論文 参考訳(メタデータ) (2020-11-16T17:34:55Z) - A Comprehensive Benchmark Framework for Active Learning Methods in
Entity Matching [17.064993611446898]
本稿では,EMのための統合型アクティブラーニングベンチマークフレームワークを構築する。
このフレームワークの目的は、積極的学習の組み合わせがEMにどのような効果をもたらすかについて、実践者のための具体的なガイドラインを可能にすることである。
また、F1スコアの観点から学習モデルの品質を約9%向上し、モデルの品質に影響を与えることなく、サンプル選択のレイテンシを最大10倍削減する新しい最適化も含んでいる。
論文 参考訳(メタデータ) (2020-03-29T19:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。