論文の概要: DIVE: Diversified Iterative Self-Improvement
- arxiv url: http://arxiv.org/abs/2501.00747v1
- Date: Wed, 01 Jan 2025 06:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:31.975229
- Title: DIVE: Diversified Iterative Self-Improvement
- Title(参考訳): DIVE: 反復的自己改善の多様化
- Authors: Yiwei Qin, Yixiu Liu, Pengfei Liu,
- Abstract要約: 自己生成データに対する継続的なトレーニングは、出力の多様性を低下させる。
DIVEは、2つの重要なコンポーネントを通してこの問題に対処する新しいフレームワークです。
MATHとGSM8kデータセットの実験により、DIVEは出力多様性メトリクスの10%から45%の相対的な増加を達成することが示された。
- 参考スコア(独自算出の注目度): 25.275658664205007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated the effectiveness of Iterative Self-Improvement (ISI) techniques. However, continuous training on self-generated data leads to reduced output diversity, a limitation particularly critical in reasoning tasks where diverse solution paths are essential. We present DIVE (Diversified Iterative Self-Improvement), a novel framework that addresses this challenge through two key components: Sample Pool Expansion for broader solution exploration, and Data Selection for balancing diversity and quality in preference pairs. Experiments on MATH and GSM8k datasets show that DIVE achieves a 10% to 45% relative increase in output diversity metrics while maintaining performance quality compared to vanilla ISI. Our ablation studies confirm both components' significance in achieving these improvements. Code is available at https://github.com/qinyiwei/DIVE.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、反復自己改善(ISI)技術の有効性を実証している。
しかし、自己生成データに対する継続的なトレーニングは出力の多様性を減少させ、特に多様な解経路が不可欠であるタスクの推論において重要な制限となる。
DIVE(Diversified Iterative Self-Improvement)は、2つの主要なコンポーネントを通じてこの問題に対処する新しいフレームワークである。
MATHとGSM8kデータセットの実験により、DIVEは、バニラISIと比較してパフォーマンス品質を維持しながら、出力多様性メトリクスの10%から45%の相対的な増加を達成することが示された。
我々のアブレーション研究は、これらの改善を達成する上での両コンポーネントの重要性を裏付けるものである。
コードはhttps://github.com/qinyiwei/DIVE.comで入手できる。
関連論文リスト
- OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (2025-04-02T17:50:31Z) - D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning [29.019199700339083]
小型で高品質なデータセットは、命令追従機能を備えた大きな言語モデルを提供することができる。
スコアリングと選択の2つの重要なステップからなるD3法を提案する。
3つのデータセットの実験では、競争力のある、あるいは優れた命令追従能力を持つLLMを実現する上で、D3の有効性が示されている。
論文 参考訳(メタデータ) (2025-03-14T14:28:19Z) - DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。
既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。
本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-01T04:00:03Z) - Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。
本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。
これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文 参考訳(メタデータ) (2025-01-15T00:56:59Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Diffusion based Semantic Outlier Generation via Nuisance Awareness for Out-of-Distribution Detection [9.936136347796413]
アウト・オブ・ディストリビューション(OOD)検出は、最近、合成OODデータセットによるトレーニングを通じて有望な結果を示している。
本稿では, 難解な外乱を生じさせる新しいフレームワークであるセマンティック外乱生成手法(SONA)を提案する。
提案手法はSONAガイダンスを取り入れ,IDサンプルの意味領域とニュアンス領域を分離的に制御する。
論文 参考訳(メタデータ) (2024-08-27T07:52:44Z) - Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis [39.57537769578304]
本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。
IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。
IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2024-06-29T07:00:37Z) - MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification [30.877906895698807]
我々は,MARL(Multi-Agent reinforcement learning)を検索結果のDIVersity(MA4DIV)に導入する。
このアプローチでは、各文書はエージェントであり、検索結果の多様化は複数のエージェント間の協調的なタスクとしてモデル化される。
我々は,MA4DIVが産業規模データセット上の既存のベースラインよりも有効性と効率の両面で大幅に向上していることを示す。
論文 参考訳(メタデータ) (2024-03-26T06:34:23Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity
in Data-Efficient GANs [24.18718734850797]
Data-Efficient GAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としている。
対照的な学習は、DE-GANの合成品質を高める大きな可能性を示している。
偽のサンプルに対してのみ対照的な学習を行うFakeCLRを提案する。
論文 参考訳(メタデータ) (2022-07-18T14:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。