論文の概要: Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency
- arxiv url: http://arxiv.org/abs/2409.07045v1
- Date: Wed, 11 Sep 2024 06:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:26:28.971335
- Title: Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency
- Title(参考訳): Beyond IID: インストラクションインタラクションと依存性の観点からのインストラクション学習の最適化
- Authors: Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan,
- Abstract要約: 各種命令のカテゴリ間の相互作用と依存性パターンを, 微調整型大言語モデル (LLM) に適用する。
異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
- 参考スコア(独自算出の注目度): 12.145516262749643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the availability of various instruction datasets, a pivotal challenge is how to effectively select and integrate these instructions to fine-tune large language models (LLMs). Previous research mainly focuses on selecting individual high-quality instructions. However, these works overlooked the joint interactions and dependencies between different categories of instructions, leading to suboptimal selection strategies. Moreover, the nature of these interaction patterns remains largely unexplored, let alone optimize the instruction set with regard to them. To fill these gaps, in this paper, we: (1) systemically investigate interaction and dependency patterns between different categories of instructions, (2) manage to optimize the instruction set concerning the interaction patterns using a linear programming-based method, and optimize the learning schema of SFT using an instruction dependency taxonomy guided curriculum learning. Experimental results across different LLMs demonstrate improved performance over strong baselines on widely adopted benchmarks.
- Abstract(参考訳): さまざまな命令データセットが利用可能になったことで、これらの命令を効果的に選択し、統合して、大規模言語モデル(LLM)を微調整する方法が重要な課題となった。
従来の研究は主に、個々の高品質な指示を選択することに焦点を当てていた。
しかし、これらの研究は、異なるカテゴリーの命令間の共同相互作用と依存関係を見落とし、最適以下の選択戦略へと繋がった。
さらに、これらの相互作用パターンの性質はほとんど解明されていないままであり、それらに関して命令セットを最適化することは言うまでもない。
これらのギャップを埋めるために,(1) 命令の異なるカテゴリ間の相互作用パターンと依存性パターンを体系的に調査し,(2) 線形計画法を用いて相互作用パターンに関する命令セットを最適化し,(2) 命令依存分類法を指導したカリキュラム学習を用いてSFTの学習スキーマを最適化する。
異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
関連論文リスト
- MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-02-17T08:12:49Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Supervised Fine-Tuning as Inverse Reinforcement Learning [8.044033685073003]
LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存します。
本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。
論文 参考訳(メタデータ) (2024-03-18T17:52:57Z) - Demystifying Instruction Mixing for Fine-tuning Large Language Models [29.69436955342966]
本研究は,NLPダウンストリームタスク,コーディング,一般的なチャットという,命令を3つの主要なタイプに分類する。
特定の命令型は特定のアプリケーションに対してより有利であるが、他の領域に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-12-17T18:44:26Z) - Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。
まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。
第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - DEPHN: Different Expression Parallel Heterogeneous Network using virtual
gradient optimization for Multi-task Learning [1.0705399532413615]
マルチタスク学習(MTL)に基づく推薦システムアルゴリズムは、インターネットオペレーターがユーザを理解し、その振る舞いを予測する主要な方法である。
従来のモデルでは、共有ボットモデルとゲーティングの専門家を使用して、共有表現学習と情報の差別化を実現している。
本稿では,複数のタスクを同時にモデル化するための異なる表現並列不均一ネットワーク(DEPHN)を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:00Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。