論文の概要: Beyond Sociodemographic Prompting: Using Supervision to Align LLMs with Human Response Distributions
- arxiv url: http://arxiv.org/abs/2507.00439v1
- Date: Tue, 01 Jul 2025 05:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.346986
- Title: Beyond Sociodemographic Prompting: Using Supervision to Align LLMs with Human Response Distributions
- Title(参考訳): ソシオドモグラフィー・プロンプティングを超えて:人間の反応分布を考慮したLCMのアライメント
- Authors: Gauri Kambhatla, Sanjana Gautam, Angela Zhang, Alex Liu, Ravi Srinivasan, Junyi Jessy Li, Matthew Lease,
- Abstract要約: 比較的単純な監視手法を用いることで,多様な集団との言語モデルアライメントを大幅に改善できることを示す。
また、特定のグループ間でアライメントがどう異なるかも報告します。
- 参考スコア(独自算出の注目度): 35.280677080241915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to accurately predict how different population groups would answer subjective questions would have great value. In this work, we show that use of relatively simple supervision can greatly improve language model alignment with diverse population groups, as measured over three datasets spanning various topics. Beyond evaluating average performance, we also report how alignment varies across specific groups. The simplicity and generality of our approach promotes easy adoption, while our broad findings provide useful guidance for when to use or not use our approach in practice. By conducting evaluation over many LLMs and prompting strategies, along with open-sourcing our work, we provide a useful benchmark to stimulate future research.
- Abstract(参考訳): 異なる集団集団が主観的な質問にどのように答えるかを正確に予測できる能力は、大きな価値を持つだろう。
本研究は,様々な話題にまたがる3つのデータセットを用いて,言語モデルと多様な集団との整合性を大幅に向上させることができることを示す。
平均的なパフォーマンスを評価するだけでなく、特定のグループ間でアライメントがどのように変化するかを報告します。
このアプローチの単純さと汎用性は、導入が容易であるのに対して、広範な発見は、アプローチを実際に使用するかどうかについての有用なガイダンスを提供する。
多くのLCMに対して評価を行い、今後の研究を刺激するための有用なベンチマークを提供する。
関連論文リスト
- Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation [2.933641361932625]
オープンなLCMを人間の好みに合わせるために、限られたデータからより効果的なサンプルを選択するためのデータ拡張手法を提案する。
本研究はPearsonの基準値に対する基準値との相関を約7%改善する。
論文 参考訳(メタデータ) (2024-12-10T11:40:11Z) - Improving LLM Group Fairness on Tabular Data via In-Context Learning [23.53624663038328]
大規模言語モデル(LLM)は、グループフェアネスを満たす予測、すなわち、グループ間で平等な結果を生成するのに失敗する。
本研究では,グループフェアネスを改善するための4つの経験的アプローチについて検討する。
本研究では,これらの手法が全体の性能を高く保ちながら,人口密度の向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-05T22:23:30Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Multi-Task Learning For Reduced Popularity Bias In Multi-Territory Video
Recommendations [1.7766905783750586]
本稿では,マルチタスク学習(MTL)手法と適応的なアップサンプリング手法を提案する。
PR-AUCによる相対利得は65.27%まで向上した。
論文 参考訳(メタデータ) (2023-09-25T00:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。