論文の概要: VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.03160v1
- Date: Tue, 03 Feb 2026 06:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.283078
- Title: VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models
- Title(参考訳): VALUEFLOW:大規模言語モデルにおける複数値に基づくアライメントを目指して
- Authors: Woojin Kim, Sieun Hyeon, Jusang Oh, Jaeyoung Do,
- Abstract要約: VALUEFLOWは、キャリブレーションされた強度制御による抽出、評価、ステアリングにまたがるフレームワークである。
我々は、10のモデルと4つの値理論にまたがる大規模な研究を行い、多値制御のための可操性および組成則の非対称性を特定した。
- 参考スコア(独自算出の注目度): 9.511622126333105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Large Language Models (LLMs) with the diverse spectrum of human values remains a central challenge: preference-based methods often fail to capture deeper motivational principles. Value-based approaches offer a more principled path, yet three gaps persist: extraction often ignores hierarchical structure, evaluation detects presence but not calibrated intensity, and the steerability of LLMs at controlled intensities remains insufficiently understood. To address these limitations, we introduce VALUEFLOW, the first unified framework that spans extraction, evaluation, and steering with calibrated intensity control. The framework integrates three components: (i) HIVES, a hierarchical value embedding space that captures intra- and cross-theory value structure; (ii) the Value Intensity DataBase (VIDB), a large-scale resource of value-labeled texts with intensity estimates derived from ranking-based aggregation; and (iii) an anchor-based evaluator that produces consistent intensity scores for model outputs by ranking them against VIDB panels. Using VALUEFLOW, we conduct a comprehensive large-scale study across ten models and four value theories, identifying asymmetries in steerability and composition laws for multi-value control. This paper establishes a scalable infrastructure for evaluating and controlling value intensity, advancing pluralistic alignment of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)を多種多様な人間の価値で調整することは、依然として中心的な課題である。
抽出はしばしば階層構造を無視し、評価はキャリブレーションされた強度を検出し、制御された強度でのLCMの操舵性は十分に理解されていない。
VALUEFLOWは, 抽出, 評価, ステアリングにまたがる最初の統一フレームワークであり, キャリブレーションによる強度制御を実現する。
このフレームワークは3つのコンポーネントを統合している。
一 HIVES 内部及び横断的価値構造をキャプチャする階層的価値埋め込み空間
(二)価値強度データベース(VIDB)、ランキングベースの集計から得られた強度推定値を持つ価値ラベル付きテキストの大規模リソース。
3)VIDBパネルにランク付けすることで、モデル出力に対して一貫した強度スコアを生成するアンカーベース評価器。
VALUEFLOWを用いて、10つのモデルと4つの値理論にまたがる包括的な大規模研究を行い、ステアビリティの非対称性と多値制御のための構成法則を同定する。
本稿では,LLMの多元的アライメントを推し進め,価値の強度を評価し,制御するためのスケーラブルな基盤を確立する。
関連論文リスト
- Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。
本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文 参考訳(メタデータ) (2026-02-01T02:35:59Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。