Fugu-MT 論文翻訳(概要): ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

論文の概要: ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

arxiv url: http://arxiv.org/abs/2407.00087v2
Date: Thu, 03 Oct 2024 18:06:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:35:52.529303
Title: ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback
Title（参考訳）: ARES: 異種AIフィードバックによる強化されたマルチモーダル連鎖推論のための強化強化学習と改良されたファインチューニング
Authors: Ju-Seung Byun, Jiyun Chun, Jihyung Kil, Andrew Perrault,
Abstract要約: 強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
参考スコア（独自算出の注目度）: 13.154512864498912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) excel at comprehending human instructions and demonstrate remarkable results across a broad spectrum of tasks. Reinforcement Learning from Human Feedback (RLHF) and AI Feedback (RLAIF) further refine LLMs by aligning them with specific preferences. These methods primarily use ranking-based feedback for entire generations. With advanced AI models (Teacher), such as GPT-4 and Claude 3 Opus, we can request various types of detailed feedback that are expensive for humans to provide. We propose a two-stage algorithm ARES that Alternates REinforcement Learning (RL) and Supervised Fine-Tuning (SFT). First, we request the Teacher to score how much each sentence contributes to solving the problem in a Chain-of-Thought (CoT). This sentence-level feedback allows us to consider individual valuable segments, providing more granular rewards for the RL procedure. Second, we ask the Teacher to correct the wrong reasoning after the RL stage. The RL procedure requires massive efforts for hyperparameter tuning and often generates errors like repetitive words and incomplete sentences. With the correction feedback, we stabilize the RL fine-tuned model through SFT. We conduct experiments on multi-model dataset ScienceQA and A-OKVQA to demonstrate the effectiveness of our proposal. ARES rationale reasoning achieves around 70% win rate against baseline models judged by GPT-4o. Additionally, we observe that the improved rationale reasoning leads to a 2.5% increase in inference answer accuracy on average for the multi-modal datasets.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、人間の指示を理解するのに優れ、幅広いタスクにまたがる顕著な結果を示す。 Reinforcement Learning from Human Feedback (RLHF) と AI Feedback (RLAIF) はLLMをさらに洗練し、特定の好みに合わせる。これらの方法は、主に世代ごとのランキングベースのフィードバックを使用する。 GPT-4やClaude 3 Opusといった高度なAIモデル(Teacher)によって、私たちは、人間が提供するのに高価なさまざまな種類の詳細なフィードバックを要求することができます。本稿では,Reinforcement Learning (RL) と Supervised Fine-Tuning (SFT) を代替する2段階アルゴリズム ARES を提案する。第一に,我々は教師に,各文が問題の解決にどの程度貢献するかを,CoT(Chain-of-Thought)で評価するよう依頼する。この文レベルのフィードバックにより、個々の価値セグメントを考慮し、RLプロシージャに対してより詳細な報酬を与えることができる。第2に、RL後の誤った推論を正すよう教師に依頼する。 RLプロシージャはハイパーパラメータチューニングに多大な努力を必要とし、繰り返し単語や不完全文のようなエラーをしばしば発生させる。補正フィードバックにより、SFTによるRL微調整モデルを安定化する。提案手法の有効性を実証するため,マルチモデルデータセットScienceQAとA-OKVQAの実験を行った。 GPT-4oで判定されたベースラインモデルに対して、ARES理性推論は70%の勝利率を達成する。さらに,改良された理性推論により,マルチモーダルデータセットの平均推定解の精度が2.5%向上することを示した。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳（メタデータ） (2025-05-22T08:50:47Z)
Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。 NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文参考訳（メタデータ） (2025-04-15T21:37:13Z)
Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文参考訳（メタデータ） (2024-10-03T14:09:58Z)
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T16:14:35Z)
Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。 PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文参考訳（メタデータ） (2024-03-15T21:43:46Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。 LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文参考訳（メタデータ） (2024-02-11T22:40:12Z)
Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (2023-09-25T20:59:33Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。