Fugu-MT 論文翻訳(概要): Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization

関連論文リスト

Divide, Optimize, Merge: Fine-Grained LLM Agent Optimization at Scale [19.60416591361918]
Fine-Grained Optimization (FGO)は、大規模最適化タスクを管理可能なサブセットに分割し、ターゲット最適化を実行し、プログレッシブマージを通じて最適化されたコンポーネントを体系的に結合するスケーラブルなフレームワークである。 ALFWorld、LogisticsQA、GAIAベンチマークによる評価では、FGOは既存のアプローチを1.6-8.6%上回り、平均的なプロンプトトークン消費量を56.3%削減している。
論文参考訳（メタデータ） (2025-05-06T20:50:27Z)
Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Starjob: Dataset for LLM-Driven Job Shop Scheduling [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)の最初の教師付きデータセットであるStarjobを紹介します。 LLaMA 8B 4ビット量子化モデルをLoRA法で微調整し、エンドツーエンドのスケジューリング手法を開発した。提案手法は従来のプライオリティ・ディスパッチ・ルール(PDR)を超えるだけでなく,L2Dのような最先端のニューラルアプローチよりも顕著に改善されていることを示す。
論文参考訳（メタデータ） (2025-02-26T15:20:01Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。本稿では,これらを並列に評価可能なペアにグループ化することで,層間の疎結合を利用した新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-05T00:26:27Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
現在の最先端の手法は、最適な結果を得るために微調整された大規模言語モデル(LLM)に依存している。 LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。 The method achieves Hits@10 performance of +23.8% on Beauty, +37.5% on Toys & Games, and -1.8% on Sports & Outdoors。
論文参考訳（メタデータ） (2024-10-21T19:34:40Z)
RosePO: Aligning LLM-based Recommenders with Human Values [38.029251417802044]
我々は、パーソナライズされた選好最適化(RosePO)を円滑にするための一般的なフレームワークを提案する。 RosePOは、トレーニング後の段階において、カスタマイズされた人的価値との整合性が向上する。実世界の3つのデータセットの評価は,本手法の有効性を示す。
論文参考訳（メタデータ） (2024-10-16T12:54:34Z)
Understanding and Scaling Collaborative Filtering Optimization from the Perspective of Matrix Rank [48.02330727538905]
協調フィルタリング(CF)手法は現実世界のレコメンデーションシステムを支配している。本研究では,異なる学習戦略下での埋め込みテーブルの特性について検討する。ユーザの安定なランクとアイテムの埋め込みを規則化する,効率的なウォームスタート戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T21:54:13Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文参考訳（メタデータ） (2024-03-08T09:20:12Z)
Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-30T13:43:20Z)
Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文参考訳（メタデータ） (2023-10-10T01:39:04Z)
Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文参考訳（メタデータ） (2023-10-04T11:34:22Z)
Supervised Contrastive Learning as Multi-Objective Optimization for Fine-Tuning Large Pre-trained Language Models [3.759936323189417]
教師付きコントラスト学習(SCL)は,ほとんどの分類タスクにおいて優れた性能を発揮することが示されている。本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
論文参考訳（メタデータ） (2022-09-28T15:13:58Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Provable Stochastic Optimization for Global Contrastive Learning: Small Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。 SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-24T22:16:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Atyaephyra at SemEval-2025 Task 4: Low-Rank Negative Preference Optimization

関連論文リスト