論文の概要: VC-Soup: Value-Consistency Guided Multi-Value Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.18113v1
- Date: Wed, 18 Mar 2026 14:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.775586
- Title: VC-Soup: Value-Consistency Guided Multi-Value Alignment for Large Language Models
- Title(参考訳): VC-Soup: 大規模言語モデルのためのバリュー一貫性ガイド付き多値アライメント
- Authors: Hefei Xu, Le Wu, Yu Wang, Min Hou, Han Wu, Zhen Zhang, Meng Wang,
- Abstract要約: 本稿では,バリュー一貫性学習に基づくデータフィルタリングとパラメータ統合フレームワークであるVC-soupを提案する。
本稿では,VC-Soupが競合を効果的に軽減し,既存の多値アライメント手法より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 26.480803729157945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly shape content generation, interaction, and decision-making across the Web, aligning them with human values has become a central objective in trustworthy AI. This challenge becomes even more pronounced when aligning multiple, potentially conflicting human values. Although recent approaches, such as reward reweighting, prompt-based supervised fine-tuning, and model merging, attempt to tackle multi-value alignment, they still face two major limitations: (1) training separate models for each value combination is prohibitively expensive; (2) value conflicts substantially degrade alignment performance. These limitations make it difficult to achieve favorable trade-offs across diverse human values. To address these challenges, we revisit multi-value alignment from the perspective of value consistency in data and propose VC-soup, a data filtering and parameter merging framework grounded in value-consistent learning. We first design a value consistency metric based on the cosine similarity between the reward-gap vector of each preference pair and an all-ones vector, which quantifies its cross-value coherence. We then filter out low-consistency preference pairs in each value dataset and train on the remaining data to obtain smooth, value-consistent policy models that better preserve linear mode connectivity. Finally, we linearly combine these policies and apply Pareto filtering across values to obtain solutions with balanced multi-value performance. Extensive experiments and theoretical analysis demonstrate that VC-soup effectively mitigates conflicts and consistently outperforms existing multi-value alignment methods.
- Abstract(参考訳): 大規模言語モデル(LLM)がますますWeb全体のコンテンツ生成、インタラクション、意思決定を形作るにつれて、それらを人間の価値と整合させることが、信頼できるAIにおいて中心的な目標となっている。
この課題は、複数の、潜在的に矛盾する人間の価値を一致させるときにさらに顕著になる。
報酬の重み付け、プロンプトベースの教師付き微調整、モデルマージといった最近のアプローチは、多値アライメントに挑戦しようとするが、それらは依然として2つの大きな制限に直面している。
これらの制限は、様々な人間の価値をまたいだ良好なトレードオフを達成するのを困難にしている。
これらの課題に対処するために、データの値整合性の観点から、多値アライメントを再考し、データフィルタリングとパラメータマージフレームワークであるVC-Soupを提案する。
まず、各選好対の報酬ギャップベクトルと全対ベクトルとのコサイン類似性に基づいて、その交差値コヒーレンスを定量化する値整合度を設計する。
次に、各値データセット内の低一貫性の選好ペアをフィルタリングし、残りのデータをトレーニングして、線形モード接続性をよりよく維持するスムーズな値一貫性ポリシーモデルを得る。
最後に、これらのポリシーを線形に組み合わせ、Paretoフィルタを値全体に適用し、バランスの取れた多値性能のソリューションを得る。
大規模な実験と理論解析により、VC-Soupは競合を効果的に軽減し、既存の多値アライメント法より一貫して優れていることが示された。
関連論文リスト
- ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation [34.173549610331385]
モデルマージは、複数のタスク固有のエキスパートモデルと1つのモデルを組み合わせることを目的としている。
専門家間の干渉、特に異なる目的でトレーニングされた場合、しばしばパフォーマンスが著しく低下する。
acemは、タスク間干渉を効果的に緩和する適応的共分散推定フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T12:53:04Z) - Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation [23.41040153806061]
MVA(Multi-Value Alignment)と呼ばれる新しいフレームワークを提案する。
相互情報の最小化により、多様な人の値間のパラメータ干渉によるアライメントを緩和する。
MVAは、LLMを複数の人間の値と整列させることで、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-15T13:33:26Z) - Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models [43.01088871836861]
COUPLEは、Puuralistic valuEアライメントのためのCOUnterfactual reasoning frameworkである。
特徴間の複雑な相互依存と優先順位付け、高レベルの価値次元と振る舞いの因果関係が特徴である。
明確な因果モデリングから恩恵を受けるため、COUPLEはより良い解釈可能性も提供する。
論文 参考訳(メタデータ) (2025-10-21T11:12:45Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - From Abstract to Actionable: Pairwise Shapley Values for Explainable AI [0.8192907805418583]
提案するPairwise Shapley Valuesは,特徴属性を明示的,人間関連性のある比較に基礎を置く新しいフレームワークである。
本手法では,一値命令と組み合わせたペアワイズ参照選択を導入し,直観的,モデルに依存しない説明を行う。
Pairwise Shapley Valuesは多種多様な回帰・分類シナリオにおける解釈可能性を高めることを実証する。
論文 参考訳(メタデータ) (2025-02-18T04:20:18Z) - MAP: Multi-Human-Value Alignment Palette [22.74688073469946]
我々はMulti-Human-Value Alignment Palette(MAP)と呼ばれる新しい第一原理的アプローチを開発した。
MAPは、構造化され信頼性の高い方法で、複数の人間の値にまたがるアライメントをナビゲートする。
我々は、値間のトレードオフ、制約に対する感度、多値アライメントとシーケンシャルアライメントの基本的な関係を定量化し、線形重み付き報酬が多値アライメントに十分であることを示すことにより、MAPの詳細な理論的解析を行う。
論文 参考訳(メタデータ) (2024-10-24T23:16:39Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。