論文の概要: Coherence Maximization Improves Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2606.03110v1
- Date: Tue, 02 Jun 2026 03:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.740351
- Title: Coherence Maximization Improves Pluralistic Alignment
- Title(参考訳): コヒーレンス最大化は複数のアライメントを改善する
- Authors: Taslim Mahbub, Yiding Pei, Shi Feng,
- Abstract要約: 内部コヒーレンス最大化(ICM)は、相互予測可能性の最大化によってラベルを推定する。
よりコヒーレントな例は、非コヒーレントな例よりもかなり良く一般化する。
これらの結果は、コヒーレンスをスケーラブルな価値仕様の鍵となる設計原則とみなしている。
- 参考スコア(独自算出の注目度): 6.466328345684073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning AI systems with diverse human values requires value specifications grounded in concrete examples, but generating such examples without extensive human supervision remains an open challenge. We investigate what makes these examples effective, using Internal Coherence Maximization (ICM) -- which infers labels by maximizing their mutual predictability -- to generate persona-specific examples that steer a model toward a target group's values, without human supervision. Across four benchmarks spanning classification, preference, and open-ended generation, ICM-inferred in-context examples match the performance of gold labels. Crucially, coherence matters beyond individual label accuracy: with accuracy held constant, more coherent examples generalize substantially better than incoherent ones. For personas underrepresented in pretraining data, targeted human feedback on the questions where the model is least certain about a persona's values yields better generalization than the same number of labels on arbitrary questions. These results identify coherence as a key design principle for scalable value specification, leveraging the diverse human perspectives already encoded in pretrained language models.
- Abstract(参考訳): さまざまな人的価値を持つAIシステムのアライメントには、具体的な例に基づく価値仕様が必要ですが、広範な人間の監督なしにそのような例を生成することは、依然としてオープンな課題です。
本研究では,これらの事例を,相互予測可能性の最大化によってラベルを推測する内部コヒーレンス最大化 (ICM) を用いて,対象グループの値に対して,人間の監督なしにモデルを操るペルソナ固有の事例を生成する。
分類、嗜好、オープン・エンド・ジェネレーションの4つのベンチマークで、ICMが推論したインコンテキストの例はゴールドラベルのパフォーマンスと一致する。
重要なことに、コヒーレンスは個々のラベルの精度以上の問題である: 精度が一定に保たれた場合、よりコヒーレントな例は非コヒーレントなものよりもかなり良く一般化する。
事前学習データで表現されていないペルソナに対しては、モデルがペルソナの値について最も確実でない問題に対する人間によるフィードバックは、任意の質問において同じラベルの数よりも優れた一般化をもたらす。
これらの結果は、コヒーレンスをスケーラブルな価値仕様の鍵となる設計原則として認識し、事前訓練された言語モデルですでにコード化されている多様な人間の視点を活用する。
関連論文リスト
- Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models [43.01088871836861]
COUPLEは、Puuralistic valuEアライメントのためのCOUnterfactual reasoning frameworkである。
特徴間の複雑な相互依存と優先順位付け、高レベルの価値次元と振る舞いの因果関係が特徴である。
明確な因果モデリングから恩恵を受けるため、COUPLEはより良い解釈可能性も提供する。
論文 参考訳(メタデータ) (2025-10-21T11:12:45Z) - MoVa: Towards Generalizable Classification of Human Morals and Values [57.93595662296688]
MoVaは、人間の道徳と価値観の一般化可能な分類のための、文書化されたリソーススイートである。
MoVaのデータと手法は、人間と機械のコミュニケーションを細かく解釈するのに役立つ。
論文 参考訳(メタデータ) (2025-09-29T02:56:27Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [44.973773675725674]
大規模マルチモーダルモデル(LMM)は視覚的質問応答(VQA)、画像キャプション、視覚的接地といった視覚的タスクにおいて顕著な性能を達成している。
HumaniBenchは、32,000の現実世界の画像検索ペアと、それに伴う評価スイートで構成されるベンチマークである。
公平性、倫理性、共感性、傾倒性、推論性、堅牢性、多言語性という7つの主要なアライメント原理にまたがるLMMを評価する。
論文 参考訳(メタデータ) (2025-05-16T17:09:44Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Responsible AI in NLP: GUS-Net Span-Level Bias Detection Dataset and Benchmark for Generalizations, Unfairness, and Stereotypes [6.30817290125825]
本稿では、GUSデータセットとマルチラベルトークンレベル検出器を組み合わせたGUS-Net Frameworkを紹介し、社会バイアスのスパンレベル分析を行う。
GUSデータセットには、複数のドメインにまたがる3,739のユニークなスニペットが含まれ、69,000以上のトークンレベルのアノテーションが含まれている。
マルチラベルトークンレベルの分類としてバイアス検出を定式化し,エンコーダベースモデルとデコーダベース大規模言語モデルの両方をベンチマークする。
論文 参考訳(メタデータ) (2024-10-10T21:51:22Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。