論文の概要: An Exploration of Self-Supervised Mutual Information Alignment for Multi-Task Settings
- arxiv url: http://arxiv.org/abs/2410.01704v1
- Date: Wed, 2 Oct 2024 16:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:53:34.145766
- Title: An Exploration of Self-Supervised Mutual Information Alignment for Multi-Task Settings
- Title(参考訳): マルチタスク設定のための自己監督型相互情報アライメントの探索
- Authors: Soham Govande,
- Abstract要約: SAMI(Self-Supervised Alignment with Mutual Information)は、行動選好とモデル応答の接続を促進するために条件付き相互情報を使用する。
マルチタスク環境でSAMIを探索する2つの実験を行った。
SAMIの1つのイテレーションは、DPOに対して57%の勝利率を持ち、タスクカテゴリ間のパフォーマンスに大きな変化がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: There is a growing need for pluralistic alignment methods that can steer language models towards individual attributes and preferences. One such method, Self-Supervised Alignment with Mutual Information (SAMI), uses conditional mutual information to encourage the connection between behavioral preferences and model responses. We conduct two experiments exploring SAMI in multi-task settings. First, we compare SAMI to Direct Preference Optimization (DPO) on a multi-task benchmark (MT-Bench), using a stronger model to generate training data for a weaker one across diverse categories (humanities, STEM, extraction, coding, math, reasoning, and roleplay). Our results indicate that one iteration of SAMI has a 57% win rate against DPO, with significant variation in performance between task categories. Second, we examine SAMI's impact on mathematical accuracy (GSM-8K) relative to supervised fine-tuning (SFT). While SAMI increases zero-shot performance by 1.1%, SFT is more effective with a 3.2% boost. However, SAMI shows interesting scaling trends. When given 10 attempts, SAMI improves accuracy by 3.9%, while SFT achieves a 10.1% increase. Combining SAMI with SFT yields an additional improvement of 1.3% in multi-attempt settings, though single-attempt accuracy remains unchanged.
- Abstract(参考訳): 言語モデルから個々の属性や好みまで,多元的アライメント手法の必要性が高まっている。
そのような手法の1つ、SAMI(Self-Supervised Alignment with Mutual Information)は、行動選好とモデル応答の接続を促進するために条件付き相互情報を使用する。
マルチタスク環境でSAMIを探索する2つの実験を行った。
まず、SAMIをマルチタスクベンチマーク(MT-Bench)上で直接選好最適化(DPO)と比較し、より弱いカテゴリ(人文、STEM、抽出、コーディング、数学、推論、ロールプレイ)のトレーニングデータを生成するために、より強力なモデルを用いて、SAMIと直接選好最適化(DPO)を比較した。
以上の結果から,SAMIの1イテレーションはDPOに対して57%の勝利率を示し,タスクカテゴリ間の性能に有意な差が認められた。
次に,SAMIが数学的精度(GSM-8K)に与える影響を,教師付き微調整(SFT)と比較して検討した。
SAMIはゼロショット性能を1.1%向上させるが、SFTの方が3.2%向上する。
しかし、SAMIは興味深いスケーリングトレンドを示している。
10回の試行が与えられた場合、SAMIは精度を3.9%改善し、SFTは10.1%向上した。
SAMIとSFTを組み合わせることで、マルチアタプティブ設定では1.3%の改善が達成されるが、シングルアタプティブの精度は変わらない。
関連論文リスト
- A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization [35.36615140853107]
Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。
TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of
Autonomous Driving [20.037562671813]
FusionADは、最も重要なセンサー、カメラ、LiDARからの情報を融合する最初の統合フレームワークです。
カメラベースのエンドツーエンドUniADに対して、FMSと呼ばれるモダリティ対応の予測ステータス計画モジュールを融合支援する手法を確立する。
我々は、一般的に使用されているベンチマークnuのデータセット、我々の最先端性能、検出や追跡などの認識タスクにおける平均15%のベースライン、占有率の10%の予測精度、予測誤差の0.708から0.389の削減、衝突率の0.31%の削減など、幅広い実験を行った。
論文 参考訳(メタデータ) (2023-08-02T08:29:44Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific
Prompt Tuning [31.0183821423397]
全スライド画像(WSI)分類は、計算病理学において重要な課題である。
技術手法の現在の状況は、通常、インスタンスを表現するために事前訓練された機能に依存するマルチインスタンス学習スキーム(MIL)に基づいている。
本稿では,WSI 分類にプロンプトを統合する MIL フレームワーク Prompt-MIL を提案する。
論文 参考訳(メタデータ) (2023-03-21T22:24:27Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - PANDA: Prompt Transfer Meets Knowledge Distillation for Efficient Model Adaptation [89.0074567748505]
即時転送可能性(i)を正確に予測する新しい指標と,新しいPoTアプローチ(PANDA)を提案する。
提案手法は,各タスクおよびモデルサイズの平均スコアの2.3%(最大24.1%)でバニラPoTアプローチを一貫して上回り,その3。
論文 参考訳(メタデータ) (2022-08-22T09:14:14Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。