Fugu-MT 論文翻訳(概要): Style Transfer with Multi-iteration Preference Optimization

論文の概要: Style Transfer with Multi-iteration Preference Optimization

arxiv url: http://arxiv.org/abs/2406.11581v2
Date: Sun, 28 Jul 2024 04:33:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 22:48:36.627176
Title: Style Transfer with Multi-iteration Preference Optimization
Title（参考訳）: 多点優先最適化を用いたスタイル伝達
Authors: Shuai Liu, Jonathan May,
Abstract要約: 強化学習と選好最適化の関係を考察する。これらの手法に触発されて、我々は確立された嗜好最適化アプローチを改善した。 2つの一般的なテキストスタイル転送データセットを用いて,本モデルの評価を行った。
参考スコア（独自算出の注目度）: 27.5647739554034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Numerous recent techniques for text style transfer characterize their approaches as variants of reinforcement learning and preference optimization. In this work, we consider the relationship between these approaches and a class of optimization approaches developed primarily for (non-neural) statistical machine translation, formerly known as `tuning'. Inspired by these techniques from the past, we improve upon established preference optimization approaches, incorporating multiple iterations of exploration and optimization, and choosing contrastive examples by following a `hope' vs `fear' sampling strategy. Cognizant of the difference between machine translation and style transfer, however, we further tailor our framework with a new pseudo-parallel generation method and a dynamic weighted reward aggregation method to tackle the lack of parallel data and the need for a multi-objective reward. We evaluate our model on two commonly used text style transfer datasets. Through automatic and human evaluation results we show the effectiveness and the superiority of our model compared to state-of-the-art baselines.
Abstract（参考訳）: 近年のテキストスタイルの転送技術は、強化学習と優先最適化の変種として、そのアプローチを特徴付けている。本研究では、これらの手法と、主に(非神経)統計機械翻訳(以前は「チューニング」と呼ばれていた)のために開発された最適化手法のクラスとの関係について考察する。過去のこれらの手法に触発されて、我々は確立された選好最適化アプローチを改善し、探索と最適化の繰り返しを取り入れ、"ホップ"と"フィーア"のサンプリング戦略に従うことで、対照的な例を選択する。しかし,機械翻訳とスタイル転送の違いを認識して,並列データの欠如と多目的報酬の必要性に対処するために,新しい擬似並列生成法と動的重み付き報酬集計法により,我々のフレームワークを更に調整する。 2つの一般的なテキストスタイル転送データセットを用いて,本モデルの評価を行った。自動評価と人的評価の結果から,最先端のベースラインと比較して,モデルの有効性と優位性を示す。

関連論文リスト

Rethinking Direct Preference Optimization in Diffusion Models [15.358181258656229]
拡散に基づく選好最適化を改良する新しい手法を提案する。まず、凍結参照モデルを緩和し、探索を促進する安定した参照モデル更新戦略を導入する。第2に、タイムステップ間の報酬スケール不均衡問題を緩和するタイムステップ対応トレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-05-24T15:14:45Z)
Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Model Fusion through Bayesian Optimization in Language Model Fine-Tuning [16.86812534268461]
下流タスクのための微調整された事前学習モデルは、様々な領域にまたがる適応性と信頼性で広く採用されているテクニックである。本稿では,多目的ベイズ最適化により,所望の計量と損失の両方を最適化する新しいモデル融合手法を提案する。各種下流タスクを対象とした実験では,ベイズ最適化誘導方式による大幅な性能向上が見られた。
論文参考訳（メタデータ） (2024-11-11T04:36:58Z)
Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T00:59:19Z)
MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文参考訳（メタデータ） (2024-10-09T03:27:14Z)
WarpAdam: A new Adam optimizer based on Meta-Learning approach [0.0]
本研究ではメタラーニングからAdamへの'ウォード勾配下降'の概念を融合させる革新的なアプローチを紹介する。適応行列 P 内に学習可能な歪み行列 P を導入することにより,多様なデータ分布にまたがるモデルの能力を高めることを目指す。本研究は,理論的洞察と実証的評価を通じて,この新たなアプローチの可能性を示すものである。
論文参考訳（メタデータ） (2024-09-06T12:51:10Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文参考訳（メタデータ） (2023-12-06T18:20:46Z)
Transfer Learning with Gaussian Processes for Bayesian Optimization [9.933956770453438]
トランスファーラーニングのための階層型GPモデルについて統一的なビューを提供し、メソッド間の関係を分析する。我々は,既存のアプローチと複雑性の両立する新しい閉形式GP転送モデルを開発した。大規模実験における異なる手法の性能評価を行い、異なる移動学習手法の長所と短所を強調した。
論文参考訳（メタデータ） (2021-11-22T14:09:45Z)
Local and Global Context-Based Pairwise Models for Sentence Ordering [0.0]
本稿では,局所的およびグローバルな文脈に基づくペアワイズ・オーダリング・ストラテジーの集合を提示する。提案手法は,この段落の豊富なグローバルな文脈情報を用いて,ペアの順序を予測する。提案した2つのデコード戦略の解析は、ペアワイズモデルにおけるエラーの伝播をよりよく説明するのに役立つ。
論文参考訳（メタデータ） (2021-10-08T17:57:59Z)
Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文参考訳（メタデータ） (2021-02-15T20:58:32Z)
On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文参考訳（メタデータ） (2020-10-24T04:30:02Z)
Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文参考訳（メタデータ） (2020-04-07T19:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。