論文の概要: Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation
- arxiv url: http://arxiv.org/abs/2502.12304v1
- Date: Mon, 17 Feb 2025 20:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:50.413257
- Title: Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation
- Title(参考訳): ワームアップ生成:教師なし初期状態生成を用いたシーケンス・ツー・シーケンス学習のためのタスク非依存アプローチ
- Authors: Senyu Li, Zipeng Sun, Jiayi Wang, Xue Liu, Pontus Stenetorp, Siva Reddy, David Ifeoluwa Adelani,
- Abstract要約: シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
- 参考スコア(独自算出の注目度): 34.55224347308013
- License:
- Abstract: Traditional supervised fine-tuning (SFT) strategies for sequence-to-sequence tasks often train models to directly generate the target output. Recent work has shown that guiding models with intermediate steps, such as keywords, outlines, or reasoning chains, can significantly improve performance, coherence, and interpretability. However, these methods often depend on predefined intermediate formats and annotated data, limiting their scalability and generalizability. In this work, we introduce a task-agnostic framework that enables models to generate intermediate "warmup" sequences. These warmup sequences, serving as an initial state for subsequent generation, are optimized to enhance the probability of generating the target sequence without relying on external supervision or human-designed structures. Drawing inspiration from reinforcement learning principles, our method iteratively refines these intermediate steps to maximize their contribution to the final output, similar to reward-driven optimization in reinforcement learning with human feedback. Experimental results across tasks such as translation, summarization, and multi-choice question answering for logical reasoning show that our approach outperforms traditional SFT methods, and offers a scalable and flexible solution for sequence-to-sequence tasks.
- Abstract(参考訳): シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
最近の研究によると、キーワードやアウトライン、推論チェーンといった中間ステップのモデルを導くことは、性能、一貫性、解釈可能性を大幅に向上させることができる。
しかし、これらの手法は、しばしば事前定義された中間形式や注釈付きデータに依存し、スケーラビリティと一般化性を制限する。
本研究では,モデルが中間的な"ウォームアップ"シーケンスを生成可能なタスク非依存フレームワークを提案する。
これらのウォームアップシーケンスは、その後の世代の初期状態として機能し、外部の監督や人間設計の構造に頼ることなく、ターゲットシーケンスを生成する確率を高めるように最適化されている。
強化学習の原則からインスピレーションを得た本手法は,人間フィードバックによる強化学習における報酬駆動型最適化と同様に,これらの中間段階を反復的に洗練し,最終結果への貢献を最大化する。
論理的推論のための翻訳,要約,複数選択質問応答などのタスクに対する実験結果から,我々の手法は従来のSFT手法よりも優れており,シークエンス・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供することが示された。
関連論文リスト
- Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。
モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。
実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-10-30T08:41:13Z) - Optimizing Chain-of-Thought Reasoning: Tackling Arranging Bottleneck via Plan Augmentation [34.042565099565934]
そこで本研究では,抽象的な計画を通じてモデルを整理し,構成ステップを生成するための計画ベーストレーニングと推論手法を提案する。
その結果,CoTデータを直接微調整した場合と比較して,ボトルネックの緩和に優れた性能が得られた。
論文 参考訳(メタデータ) (2024-10-22T08:38:50Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Finding the DeepDream for Time Series: Activation Maximization for Univariate Time Series [10.388704631887496]
逐次情報解析に最大活性化を適用する手法であるSequence Dreamingを紹介する。
モデル決定プロセスに最も影響を及ぼす時間的ダイナミクスとパターンを可視化する。
論文 参考訳(メタデータ) (2024-08-20T08:09:44Z) - An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing [8.892147201091726]
ディディにおけるエンドツーエンドの強化学習に基づく秩序分散手法を提案する。
我々はこの問題をモデル化するために2層決定プロセスフレームワークを使用し、注文代入を生成するエンコーダ-デコーダ構造ネットワークであるアンダーラインDouble underlineScalable underlineNetwork (DSN2)を提案する。
コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2024-08-20T01:30:53Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Enhancing Few-shot NER with Prompt Ordering based Data Augmentation [59.69108119752584]
本稿では,PODA(Prompt Ordering Based Data Augmentation)手法を提案する。
3つのパブリックNERデータセットの実験結果とさらなる分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-19T16:25:43Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。