Fugu-MT 論文翻訳(概要): Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency

論文の概要: Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency

arxiv url: http://arxiv.org/abs/2409.07045v1
Date: Wed, 11 Sep 2024 06:27:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 15:26:28.971335
Title: Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency
Title（参考訳）: Beyond IID: インストラクションインタラクションと依存性の観点からのインストラクション学習の最適化
Authors: Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan,
Abstract要約: 各種命令のカテゴリ間の相互作用と依存性パターンを, 微調整型大言語モデル (LLM) に適用する。異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。
参考スコア（独自算出の注目度）: 12.145516262749643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the availability of various instruction datasets, a pivotal challenge is how to effectively select and integrate these instructions to fine-tune large language models (LLMs). Previous research mainly focuses on selecting individual high-quality instructions. However, these works overlooked the joint interactions and dependencies between different categories of instructions, leading to suboptimal selection strategies. Moreover, the nature of these interaction patterns remains largely unexplored, let alone optimize the instruction set with regard to them. To fill these gaps, in this paper, we: (1) systemically investigate interaction and dependency patterns between different categories of instructions, (2) manage to optimize the instruction set concerning the interaction patterns using a linear programming-based method, and optimize the learning schema of SFT using an instruction dependency taxonomy guided curriculum learning. Experimental results across different LLMs demonstrate improved performance over strong baselines on widely adopted benchmarks.
Abstract（参考訳）: さまざまな命令データセットが利用可能になったことで、これらの命令を効果的に選択し、統合して、大規模言語モデル(LLM)を微調整する方法が重要な課題となった。従来の研究は主に、個々の高品質な指示を選択することに焦点を当てていた。しかし、これらの研究は、異なるカテゴリーの命令間の共同相互作用と依存関係を見落とし、最適以下の選択戦略へと繋がった。さらに、これらの相互作用パターンの性質はほとんど解明されていないままであり、それらに関して命令セットを最適化することは言うまでもない。これらのギャップを埋めるために,(1) 命令の異なるカテゴリ間の相互作用パターンと依存性パターンを体系的に調査し,(2) 線形計画法を用いて相互作用パターンに関する命令セットを最適化し,(2) 命令依存分類法を指導したカリキュラム学習を用いてSFTの学習スキーマを最適化する。異なるLLMに対する実験結果から、広く採用されているベンチマークにおいて、強いベースラインよりも性能が向上したことが示された。

関連論文リスト

Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文参考訳（メタデータ） (2025-06-26T17:25:49Z)
Modeling Ranking Properties with In-Context Learning [13.34397013426643]
本稿では,各ランキングシナリオやデータセットに対するタスク固有のトレーニングを不要とする,コンテキスト内学習(ICL)アプローチを提案する。提案手法は,現在入力に類似した過去の問合せの目的間のトレードオフを示す少数の事例ランキングに依存する。
論文参考訳（メタデータ） (2025-05-23T10:58:22Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models [48.63476198469349]
本稿では,タスクオブジェクト駆動型命令選択フレームワークRAISEを提案する。 RAISEは命令の微調整プロセス全体を最適化に組み込んでいる。モデルの性能改善に対する命令の期待される影響に基づいて,各ステップで命令を選択する。
論文参考訳（メタデータ） (2025-04-09T21:17:52Z)
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs [29.07102440466282]
本稿では,命令実行の有効性を前提としたアライメント選択を自動的に構築するスケーラブルなフレームワークを提案する。提案手法は,自動選好構築と専用の検証プロセスを含む。 Qwen2VL-7Bの実験では、複数のベンチマークでIPAの有効性が示されている。
論文参考訳（メタデータ） (2025-03-26T08:19:02Z)
MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2025-02-17T08:12:49Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
Demonstration Selection for In-Context Learning via Reinforcement Learning [16.103533806505403]
Relevance-Diversity Enhanced Selection (RDES)は、多様な参照デモの選択を最適化するための革新的なアプローチである。 RDESはQ-learningのようなフレームワークとPPOベースの変種を使用して、多様性を最大化するデモを動的に識別する。 RDESは10基のベースラインに比べて性能を著しく向上することを示した。
論文参考訳（メタデータ） (2024-12-05T08:33:52Z)
Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文参考訳（メタデータ） (2024-09-04T15:11:55Z)
Supervised Fine-Tuning as Inverse Reinforcement Learning [8.044033685073003]
LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存します。本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。
論文参考訳（メタデータ） (2024-03-18T17:52:57Z)
Demystifying Instruction Mixing for Fine-tuning Large Language Models [29.69436955342966]
本研究は,NLPダウンストリームタスク,コーディング,一般的なチャットという,命令を3つの主要なタイプに分類する。特定の命令型は特定のアプリケーションに対してより有利であるが、他の領域に悪影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-12-17T18:44:26Z)
KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文参考訳（メタデータ） (2023-11-26T20:35:19Z)
Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models [79.32652077838046]
大規模言語モデル(LLM)のためのマルチターン命令の強化を目的としたソリューションであるParrotを紹介する。まず,アナフォラやエリプシスなどの人間的なクエリを特徴とするマルチターン命令を効率よく,効率的に収集する手法を提案する。第2に,マルチターンインタラクションにおける複雑なクエリに対するLLMをさらに強化する,コンテキスト対応の選好最適化手法を提案する。
論文参考訳（メタデータ） (2023-10-11T08:36:43Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
DEPHN: Different Expression Parallel Heterogeneous Network using virtual gradient optimization for Multi-task Learning [1.0705399532413615]
マルチタスク学習(MTL)に基づく推薦システムアルゴリズムは、インターネットオペレーターがユーザを理解し、その振る舞いを予測する主要な方法である。従来のモデルでは、共有ボットモデルとゲーティングの専門家を使用して、共有表現学習と情報の差別化を実現している。本稿では,複数のタスクを同時にモデル化するための異なる表現並列不均一ネットワーク(DEPHN)を提案する。
論文参考訳（メタデータ） (2023-07-24T04:29:00Z)
Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文参考訳（メタデータ） (2023-02-11T03:35:13Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Contrastive Instruction-Trajectory Learning for Vision-Language Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-08T06:32:52Z)
Provable Representation Learning for Imitation Learning via Bi-level Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文参考訳（メタデータ） (2020-02-24T21:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。