論文の概要: PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
- arxiv url: http://arxiv.org/abs/2507.16679v1
- Date: Tue, 22 Jul 2025 15:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.174192
- Title: PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
- Title(参考訳): PICACO: 総合的相関最適化によるLLMの多元的インコンテキスト値アライメント
- Authors: Han Jiang, Dongyao Zhu, Zhihua Wei, Xiaoyuan Yi, Ziang Xiao, Xing Xie,
- Abstract要約: In-Context Learningは、大規模言語モデル(LLM)を人間の価値と整合させる大きな可能性を示している。
LLMの入力プロンプトの理解は依然として不可知であり、ICAが値の緊張に対処する能力を制限する。
この問題に対処する新しい多元的ICA手法であるPICACOを提案する。
- 参考スコア(独自算出の注目度): 33.60097751620483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning has shown great potential for aligning Large Language Models (LLMs) with human values, helping reduce harmful outputs and accommodate diverse preferences without costly post-training, known as In-Context Alignment (ICA). However, LLMs' comprehension of input prompts remains agnostic, limiting ICA's ability to address value tensions--human values are inherently pluralistic, often imposing conflicting demands, e.g., stimulation vs. tradition. Current ICA methods therefore face the Instruction Bottleneck challenge, where LLMs struggle to reconcile multiple intended values within a single prompt, leading to incomplete or biased alignment. To address this, we propose PICACO, a novel pluralistic ICA method. Without fine-tuning, PICACO optimizes a meta-instruction that navigates multiple values to better elicit LLMs' understanding of them and improve their alignment. This is achieved by maximizing the total correlation between specified values and LLM responses, theoretically reinforcing value correlation while reducing distractive noise, resulting in effective value instructions. Extensive experiments on five value sets show that PICACO works well with both black-box and open-source LLMs, outperforms several recent strong baselines, and achieves a better balance across up to 8 distinct values.
- Abstract(参考訳): In-Context Learningは、大規模な言語モデル(LLM)を人間の価値と整合させる大きな可能性を示し、有害なアウトプットを減らし、In-Context Alignment (ICA)として知られるコストのかかる後トレーニングをせずに多様な好みに適応する。
しかし、LLMsの入力プロンプトの理解は依然として不可知であり、ICAの値緊張に対処する能力を制限する - 人間の値は本質的に多元的であり、しばしば矛盾する要求、例えば刺激と伝統を暗示する。
したがって、現在のICA手法はインストラクション・ボトルネックの課題に直面しており、LLMは単一のプロンプト内で複数の意図された値を調整するのに苦労し、不完全あるいは偏りのアライメントにつながる。
そこで本研究では,新しい多元的ICA手法であるPICACOを提案する。
微調整なしで、PICACOはメタ命令を最適化し、複数の値をナビゲートしてLLMの理解を深め、アライメントを改善する。
これは、指定された値とLLM応答の総相関を最大化し、理論的に値相関を補強し、邪魔なノイズを低減し、効果的な値指示をもたらすことによって達成される。
5つの値集合の大規模な実験により、PICACOはブラックボックスとオープンソースLLMの両方でうまく機能し、最近の強力なベースラインよりも優れ、最大8つの異なる値のバランスが良くなった。
関連論文リスト
- Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文 参考訳(メタデータ) (2025-05-31T23:38:48Z) - AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference [43.168803869385066]
AdAEMは、LSMの傾きを明らかにするための、新しい、自己拡張可能なアセスメントフレームワークである。
テストの質問を自動的に、適応的に生成し、拡張することができます。
シュワルツ値理論に基づく12,310の質問を生成し,提案手法の有効性と有効性を示す分析を行い,16 LLMの値をベンチマークする。
論文 参考訳(メタデータ) (2025-05-18T09:15:26Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses [34.77031649891843]
CLAVEは2つの補完的なLarge Language Model(LLM)を統合する新しいフレームワークである。
このデュアルモデルアプローチは、値タイプ当たり100個の人ラベルサンプルを使用して、任意の値システムでキャリブレーションを可能にする。
ValEvalは13k+(text,value,label)12+を多種多様なドメインで構成し、3つの主要なバリューシステムをカバーする包括的データセットである。
論文 参考訳(メタデータ) (2024-07-15T13:51:37Z) - DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback [61.28463542324576]
本稿では,大規模言語モデルから自然言語フィードバック(NLF)を革新的に活用する大規模視覚言語モデル(LVLM)であるDRESSを紹介する。
我々は,NLFの新たな分類法を2つの重要なタイプに分類する。
実験の結果、DRESSはより有用な(9.76%)、正直な(11.52%)、無害な(21.03%)を生成できることが示された。
論文 参考訳(メタデータ) (2023-11-16T18:37:29Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。