論文の概要: VISPA: Pluralistic Alignment via Automatic Value Selection and Activation
- arxiv url: http://arxiv.org/abs/2601.12758v1
- Date: Mon, 19 Jan 2026 06:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.778799
- Title: VISPA: Pluralistic Alignment via Automatic Value Selection and Activation
- Title(参考訳): VISPA: 自動値選択とアクティベーションによる複数のアライメント
- Authors: Shenyan Zheng, Jiayou Zhong, Anudeex Shetty, Heng Ji, Preslav Nakov, Usman Naseem,
- Abstract要約: トレーニング不要な多元的アライメントフレームワークであるVISPAを紹介する。
VISPAは、医療などにおいて、複数のアライメントモードにまたがるパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 82.8405077104797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models are increasingly used in high-stakes domains, it is essential that their outputs reflect not average} human preference, rather range of varying perspectives. Achieving such pluralism, however, remains challenging. Existing approaches consider limited values or rely on prompt-level interventions, lacking value control and representation. To address this, we introduce VISPA, a training-free pluralistic alignment framework, that enables direct control over value expression by dynamic selection and internal model activation steering. Across extensive empirical studies spanning multiple models and evaluation settings, we show VISPA is performant across all pluralistic alignment modes in healthcare and beyond. Further analysis reveals VISPA is adaptable with different steering initiations, model, and/or values. These results suggest that pluralistic alignment can be achieved through internal activation mechanisms, offering a scalable path toward language models that serves all.
- Abstract(参考訳): 大規模言語モデルがハイテイクドメインでますます使われているため、そのアウトプットは人間の嗜好を反映するのではなく、さまざまな視点で反映することが不可欠である。
しかし、そのような多元主義を実現することは依然として困難である。
既存のアプローチでは、制限された値やプロンプトレベルの介入を考慮し、価値管理と表現が欠如している。
そこで本研究では,動的選択と内部モデルアクティベーションステアリングによる値表現の直接制御を可能にする,トレーニング不要な多元的アライメントフレームワークであるVISPAを紹介する。
複数のモデルと評価設定にまたがる広範な実証研究を通じて、VISPAは医療のあらゆる多元的アライメント・モードにおいて、かつ、それ以上のパフォーマンスを示す。
さらに分析した結果、VISPAは異なるステアリング開始、モデル、/または値で適応可能であることが明らかになった。
これらの結果から,多元的アライメントは内的アクティベーション機構によって実現可能であることが示唆された。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models [10.052877942432783]
本稿では,視覚言語モデルの因果的解釈に視覚意味編集と注意調整を組み合わせた新しいフレームワークであるV-SEAMを紹介する。
V-SEAMは3つの意味レベルにわたる予測に肯定的あるいは否定的な貢献で注目の頭を認識する。
3種類のVQAベンチマークでLLaVAとInstructBLIPの性能向上を示した。
論文 参考訳(メタデータ) (2025-09-18T10:58:34Z) - Evaluating and Steering Modality Preferences in Multimodal Large Language Model [42.828461839307174]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:07:59Z) - SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Improving Multilingual Language Models by Aligning Representations through Steering [10.159957091670883]
本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。
表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
論文 参考訳(メタデータ) (2025-05-19T00:14:43Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。