論文の概要: Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.13690v2
- Date: Wed, 07 May 2025 19:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 15:15:33.027848
- Title: Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization
- Title(参考訳): SemEval-2025 Task 4: Low-Rank Negative Preference Optimization
- Authors: Jan Bronec, Jindřich Helcl,
- Abstract要約: 我々は,LLMから未学習のセンシティブコンテンツに関するSemEval 2025共有タスクを提出する。
提案手法は、低ランク適応を用いた負の優先最適化を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a submission to the SemEval 2025 shared task on unlearning sensitive content from LLMs. Our approach employs negative preference optimization using low-rank adaptation. We show that we can utilize this combination to efficiently compute additional regularization terms, which help with unlearning stabilization. The results of our approach significantly exceed the shared task baselines.
- Abstract(参考訳): 我々は,LLMから未学習のセンシティブコンテンツに関するSemEval 2025共有タスクを提出する。
提案手法は、低ランク適応を用いた負の優先最適化を用いる。
我々はこの組み合わせを利用して、学習不能の安定化に役立つ追加の正規化項を効率的に計算できることを示します。
提案手法は共有タスクベースラインをはるかに上回る結果となった。
関連論文リスト
- Starjob: Dataset for LLM-Driven Job Shop Scheduling [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)の最初の教師付きデータセットであるStarjobを紹介します。
LLaMA 8B 4ビット量子化モデルをLoRA法で微調整し、エンドツーエンドのスケジューリング手法を開発した。
提案手法は従来のプライオリティ・ディスパッチ・ルール(PDR)を超えるだけでなく,L2Dのような最先端のニューラルアプローチよりも顕著に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-26T15:20:01Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。
本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。
本稿では,これらを並列に評価可能なペアにグループ化することで,層間の疎結合を利用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-05T00:26:27Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
現在の最先端の手法は、最適な結果を得るために微調整された大規模言語モデル(LLM)に依存している。
LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。
The method achieves Hits@10 performance of +23.8% on Beauty, +37.5% on Toys & Games, and -1.8% on Sports & Outdoors。
論文 参考訳(メタデータ) (2024-10-21T19:34:40Z) - RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。
RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。
実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-16T12:54:34Z) - Understanding and Scaling Collaborative Filtering Optimization from the Perspective of Matrix Rank [48.02330727538905]
協調フィルタリング(CF)手法は現実世界のレコメンデーションシステムを支配している。
本研究では,異なる学習戦略下での埋め込みテーブルの特性について検討する。
ユーザの安定なランクとアイテムの埋め込みを規則化する,効率的なウォームスタート戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T21:54:13Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。