論文の概要: Improving the Distributional Alignment of LLMs using Supervision
- arxiv url: http://arxiv.org/abs/2507.00439v2
- Date: Sun, 26 Oct 2025 23:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.68084
- Title: Improving the Distributional Alignment of LLMs using Supervision
- Title(参考訳): スーパービジョンによるLCMの配向改善
- Authors: Gauri Kambhatla, Sanjana Gautam, Angela Zhang, Alex Liu, Ravi Srinivasan, Junyi Jessy Li, Matthew Lease,
- Abstract要約: 本研究は, 言語モデルアライメントの簡易化により, 言語モデルアライメントが向上し, 多様な集団群との整合性が向上することを示す。
多様な集団によるLSMの分布的アライメントに関する知見を提供する。
- 参考スコア(独自算出の注目度): 24.230497561199755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to accurately align LLMs with human population groups on subjective questions would have great value. In this work, we show that use of simple supervision can greatly improve language model alignment with diverse population groups more consistently, as measured over three datasets spanning various topics. Beyond evaluating average alignment, we also report how alignment varies across specific groups. Our broad findings provide insights into the distributional alignment of LLMs with diverse population groups. By conducting evaluation over many LLMs and prompting strategies, along with open-sourcing our work, we provide a benchmark to stimulate future research.
- Abstract(参考訳): LLMを人間の集団と正確に一致させる能力は、主観的な質問に対して大きな価値があるだろう。
本研究は,様々なトピックにまたがる3つのデータセットを用いて,言語モデルと多様な集団との整合性を大幅に向上させることができることを示す。
平均アライメントを評価するだけでなく、特定のグループ間でアライメントがどのように変化するかを報告します。
多様な集団によるLSMの分布的アライメントに関する知見を提供する。
多くのLCMに対して評価を行い、今後の研究を刺激するためのベンチマークを提供する。
関連論文リスト
- Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation [2.933641361932625]
オープンなLCMを人間の好みに合わせるために、限られたデータからより効果的なサンプルを選択するためのデータ拡張手法を提案する。
本研究はPearsonの基準値に対する基準値との相関を約7%改善する。
論文 参考訳(メタデータ) (2024-12-10T11:40:11Z) - Improving LLM Group Fairness on Tabular Data via In-Context Learning [23.53624663038328]
大規模言語モデル(LLM)は、グループフェアネスを満たす予測、すなわち、グループ間で平等な結果を生成するのに失敗する。
本研究では,グループフェアネスを改善するための4つの経験的アプローチについて検討する。
本研究では,これらの手法が全体の性能を高く保ちながら,人口密度の向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-05T22:23:30Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Multi-Task Learning For Reduced Popularity Bias In Multi-Territory Video
Recommendations [1.7766905783750586]
本稿では,マルチタスク学習(MTL)手法と適応的なアップサンプリング手法を提案する。
PR-AUCによる相対利得は65.27%まで向上した。
論文 参考訳(メタデータ) (2023-09-25T00:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。