Fugu-MT 論文翻訳(概要): Supervised Fine-Tuning as Inverse Reinforcement Learning

論文の概要: Supervised Fine-Tuning as Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.12017v1
Date: Mon, 18 Mar 2024 17:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 19:01:22.277371
Title: Supervised Fine-Tuning as Inverse Reinforcement Learning
Title（参考訳）: 逆強化学習としてのファインチューニング
Authors: Hao Sun,
Abstract要約: LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存します。本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。
参考スコア（独自算出の注目度）: 8.044033685073003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prevailing approach to aligning Large Language Models (LLMs) typically relies on human or AI feedback and assumes access to specific types of preference datasets. In our work, we question the efficacy of such datasets and explore various scenarios where alignment with expert demonstrations proves more realistic. We build a sequential decision-making framework to formulate the problem of aligning LLMs using demonstration datasets. Drawing insights from inverse reinforcement learning and imitation learning, we introduce various approaches for divergence minimization in the LLM alignment tasks. Our analysis highlights the mass-covering and mode-seeking behaviors of these different approaches. Inclusively, we examine the pros and cons of the classical supervised fine-tuning method, elaborating on scenarios where different methods shine.
Abstract（参考訳）: LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存し、特定のタイプの嗜好データセットへのアクセスを前提としている。本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。実演データセットを用いてLCMを整列する問題を定式化するための逐次的意思決定フレームワークを構築した。逆強化学習と模倣学習から洞察を得た上で,LLMアライメントタスクにおける分散化最小化のための様々なアプローチを提案する。分析では、これらの異なるアプローチの質量探索とモード探索の挙動を強調した。包括的に,古典的微調整法の長所と短所を考察し,異なる方法が輝くシナリオについて検討した。

関連論文リスト

Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [34.6322241916799]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Fair In-Context Learning via Latent Concept Variables [17.216196320585922]
大規模言語モデル(LLM)は、学習前のデータから社会的偏見と差別を継承することができる。我々は、予測結果と敏感な変数との相関を低減し、潜在概念学習における公平性の促進を支援するデータ強化戦略を設計する。
論文参考訳（メタデータ） (2024-11-04T23:10:05Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文参考訳（メタデータ） (2024-09-04T15:11:55Z)
Probing the Decision Boundaries of In-context Learning in Large Language Models [31.977886254197138]
本稿では,テキスト内二項分類のための決定境界のレンズからテキスト内学習を探索し,理解するための新しいメカニズムを提案する。驚いたことに、単純な二項分類タスクにおいて、現在のLLMによって学習される決定境界は、しばしば不規則で非滑らかである。
論文参考訳（メタデータ） (2024-06-17T06:00:24Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Model-Based Deep Learning: On the Intersection of Deep Learning and Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文参考訳（メタデータ） (2022-05-05T13:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。