Fugu-MT 論文翻訳(概要): Classifier-free guidance in LLMs Safety

関連論文リスト

PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。 PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文参考訳（メタデータ） (2025-07-26T21:46:32Z)
Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs [49.1574468325115]
本稿では, LIBU (LoRA enhanced influence-based unlearning) について述べる。このアルゴリズムは、古典的なテクスチャインフルエンス関数を組み合わせて、モデルからデータの影響を除去し、テクスチャ秒オーダーの最適化を行い、全体のユーティリティを安定させる。
論文参考訳（メタデータ） (2025-06-04T15:10:09Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
Improving LLM Interpretability and Performance via Guided Embedding Refinement for Sequential Recommendation [18.13513199455587]
本稿では,ベースレコメンデーションシステムに付随する埋め込みを強化するための,ガイド付き埋め込み改良法を提案する。我々は、解釈可能な属性のドメイン関連セマンティック情報をキャプチャするガイド付き埋め込みを生成する。改良された埋め込みは平均相反ランク(MRR)、リコールレート、正規化された非カウント累積ゲイン(NDCG)の約10%から50%のゲインを達成する。
論文参考訳（メタデータ） (2025-04-15T23:03:53Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
既存のメソッドは、しばしば追加の参照データ、分散やドメイン予測のための独立したコンポーネントに依存します。本稿では,動的ランク選択型低ランク適応(LoRA)を提案する。本手法は,学習済みの知識とCL中に獲得した知識の両方を保持することで,学習済みのVLMを継続的に強化する。
論文参考訳（メタデータ） (2024-12-01T23:41:42Z)
GenEOL: Harnessing the Generative Power of LLMs for Training-Free Sentence Embeddings [7.957874169275548]
トレーニング不要な埋め込み手法は、事前訓練された大規模言語モデル(LLM)を直接利用してテキストを埋め込む。そこで本研究では,LLMを用いて意味を保った文の多種多様な変換を生成する手法を提案する。
論文参考訳（メタデータ） (2024-10-18T17:36:53Z)
Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。 2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文参考訳（メタデータ） (2024-07-23T16:54:28Z)
Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。 DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-06-17T08:08:11Z)
InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models [35.067998820937284]
InstUPRは、大規模言語モデル(LLM)に基づく教師なしパスのランク付け手法である。ソフトスコアアグリゲーション手法を導入し、教師なしパスの再ランクにペアワイズ・リランクを採用する。 BEIRベンチマークの実験では、InstUPRは教師なしベースラインと命令調整されたリランカよりも優れていた。
論文参考訳（メタデータ） (2024-03-25T05:31:22Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文参考訳（メタデータ） (2020-11-26T18:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Classifier-free guidance in LLMs Safety

関連論文リスト