Fugu-MT 論文翻訳(概要): A Critical Evaluation of AI Feedback for Aligning Large Language Models

論文の概要: A Critical Evaluation of AI Feedback for Aligning Large Language Models

arxiv url: http://arxiv.org/abs/2402.12366v1
Date: Mon, 19 Feb 2024 18:53:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 14:55:30.563842
Title: A Critical Evaluation of AI Feedback for Aligning Large Language Models
Title（参考訳）: 大規模言語モデルに対するAIフィードバックの批判的評価
Authors: Archit Sharma, Sedrick Keh, Eric Mitchell, Chelsea Finn, Kushal Arora, Thomas Kollar
Abstract要約: 教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
参考スコア（独自算出の注目度）: 60.42291111149438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning with AI feedback (RLAIF) is a popular paradigm for improving the instruction-following abilities of powerful pre-trained language models. RLAIF first performs supervised fine-tuning (SFT) using demonstrations from a teacher model and then further fine-tunes the model with reinforcement learning (RL), using feedback from a critic model. While recent popular open-source models have demonstrated substantial improvements in performance from the RL step, in this paper we question whether the complexity of this RL step is truly warranted for AI feedback. We show that the improvements of the RL step are virtually entirely due to the widespread practice of using a weaker teacher model (e.g. GPT-3.5) for SFT data collection than the critic (e.g., GPT-4) used for AI feedback generation. Specifically, we show that simple supervised fine-tuning with GPT-4 as the teacher outperforms existing RLAIF pipelines. More generally, we find that the gains from RLAIF vary substantially across base model families, test-time evaluation protocols, and critic models. Finally, we provide a mechanistic explanation for when SFT may outperform the full two-step RLAIF pipeline as well as suggestions for making RLAIF maximally useful in practice.
Abstract（参考訳）: AIフィードバックによる強化学習(RLAIF)は、強力な事前学習言語モデルの命令追従能力を改善するための一般的なパラダイムである。 RLAIFはまず教師モデルからのデモンストレーションを用いて教師付き微調整(SFT)を行い、さらに批判モデルからのフィードバックを用いて強化学習(RL)でモデルをさらに微調整する。最近のポピュラーなオープンソースモデルは、RLステップから大幅に改善されているが、この記事では、このRLステップの複雑さがAIフィードバックに真に保証されているかどうかを疑問視する。本稿では,AIフィードバック生成に使用する批判者(GPT-4など)よりも,SFTデータ収集に弱い教師モデル(GPT-3.5など)を用いることによって,RLステップの改善がほぼ完全に実現されていることを示す。具体的には、教師が既存のRLAIFパイプラインより優れたGPT-4による教師付き微調整を行うことを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。最後に、SFTが2段階のRLAIFパイプラインより優れている場合と、実際にRLAIFを最大限に有効にするための提案について説明する。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [28.962415274754537]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。 textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning) ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文参考訳（メタデータ） (2025-06-09T08:11:20Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。我々はPhi-4-reasoning-plusを開発した。どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文参考訳（メタデータ） (2025-04-30T05:05:09Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
GPT-o1とDeepSeek-R1は、明示的な反射によって難しい問題を解く大きな可能性を示した。本稿では、強化学習を用いて、視覚言語モデルの遅い思考能力を向上させることを目的とする。我々のモデルであるVL-Rethinkerは、MathVista、MathVerse、MathVisionの最先端スコアを80.3%、61.8%、43.9%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [9.950083479263293]
REINFORCE++は、グローバルな優位性正規化を使用しながら、批判モデルを削除する新しいアプローチである。プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。 RLHFとロングチェーン・オブ・ソートの両方において優れた一般化を実現する。
論文参考訳（メタデータ） (2025-01-04T02:08:06Z)
Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-01T07:29:03Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文参考訳（メタデータ） (2024-06-25T07:20:11Z)
Teaching Language Models to Self-Improve by Learning from Language Feedback [40.649677201161744]
本稿では、モデルフィードバックをアライメントに活用するSRT(Self-Refinement Tuning)を提案する。 SRTはベース言語モデル(例えばTulu2)を使用して、より高度なモデルによって批判され洗練される初期応答を生成する。 SRTはさらに、自己生成したフィードバックと改善から学び、モデルの改善を促進するフィードバックループを作成することで、モデルを最適化する。
論文参考訳（メタデータ） (2024-06-11T11:20:05Z)
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。提案アルゴリズムはIRL問題の定常解に収束することを示す。その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文参考訳（メタデータ） (2024-05-28T07:11:05Z)
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback [47.12549302721597]
我々はAIフィードバック(HRLAIF)によるハイブリッド強化学習を提案する。この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。 HRLAIFはRLAIFの能力を継承し、低コストで結果に対する人間の嗜好を高めると同時に、反応の満足度を向上させる。
論文参考訳（メタデータ） (2024-03-13T07:38:20Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。