Fugu-MT 論文翻訳(概要): A Framework for Fine-Tuning LLMs using Heterogeneous Feedback

論文の概要: A Framework for Fine-Tuning LLMs using Heterogeneous Feedback

arxiv url: http://arxiv.org/abs/2408.02861v1
Date: Mon, 5 Aug 2024 23:20:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 15:28:57.169976
Title: A Framework for Fine-Tuning LLMs using Heterogeneous Feedback
Title（参考訳）: 不均一フィードバックを用いた微調整LDMの一構成法
Authors: Ryan Aponte, Ryan A. Rossi, Shunan Guo, Franck Dernoncourt, Tong Yu, Xiang Chen, Subrata Mitra, Nedim Lipka,
Abstract要約: ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
参考スコア（独自算出の注目度）: 69.51729152929413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have been applied to a wide range of tasks, including text summarization, web navigation, and chatbots. They have benefitted from supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF) following an unsupervised pretraining. These datasets can be difficult to collect, limited in scope, and vary in sample quality. Additionally, datasets can vary extensively in supervision format, from numerical to binary as well as multi-dimensional with many different values. We present a framework for fine-tuning LLMs using heterogeneous feedback, which has two main components. First, we combine the heterogeneous feedback data into a single supervision format, compatible with methods like SFT and RLHF. Next, given this unified feedback dataset, we extract a high-quality and diverse subset to obtain performance increases potentially exceeding the full dataset. We conduct extensive experiments to understand the effectiveness of these techniques for incorporating heterogeneous feedback, and demonstrate improvements from using a high-quality and diverse subset of the data. We find that our framework is able to improve models in multiple areas simultaneously, such as in instruction following and bias reduction.
Abstract（参考訳）: 大規模言語モデル(LLM)は、テキスト要約、Webナビゲーション、チャットボットなど、幅広いタスクに適用されている。指導的微調整(SFT)と人的フィードバック(RLHF)からの強化学習(RLHF)の恩恵を受けている。これらのデータセットは、収集が難しく、スコープが制限され、サンプルの品質が変化する可能性がある。さらに、データセットは多くの異なる値を持つ多次元と同様に、数値からバイナリまで、監督形式で広範囲に分散することができる。本稿では,2つの主成分を持つ異種フィードバックを用いた微調整 LLM フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから高品質で多様なサブセットを抽出し、完全なデータセットを超える可能性のあるパフォーマンス向上を実現する。我々は、異種フィードバックを組み込むためのこれらの手法の有効性を理解するための広範な実験を行い、データの高品質で多様なサブセットを使用することによる改善を実証する。我々のフレームワークは、命令追従やバイアス低減など、複数の領域で同時にモデルを改善することができる。

関連論文リスト

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs [39.84010804274527]
本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
論文参考訳（メタデータ） (2026-02-11T00:23:13Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Learning to Summarize from LLM-generated Feedback [18.937441310579164]
本研究は,LLM生成フィードバックを用いて要約を人間の好み,完全性,簡潔さに合わせることで要約品質を向上させることを目的とする。我々の実験は、フィードバックの質、寸法、粒度が好みの学習にどのように影響するかを示す。 SummLlama3-8bはLlama3-70bの約10倍の精度で人為的な要約を生成するモデルである。
論文参考訳（メタデータ） (2024-10-17T01:01:09Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文参考訳（メタデータ） (2024-08-05T14:16:54Z)
RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-27T09:47:36Z)
COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文参考訳（メタデータ） (2024-01-17T04:43:45Z)
Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。 3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文参考訳（メタデータ） (2023-11-14T14:10:40Z)
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文参考訳（メタデータ） (2023-10-09T07:56:16Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。