論文の概要: Towards Low-Resource Alignment to Diverse Perspectives with Sparse Feedback
- arxiv url: http://arxiv.org/abs/2510.16257v1
- Date: Fri, 17 Oct 2025 23:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.737886
- Title: Towards Low-Resource Alignment to Diverse Perspectives with Sparse Feedback
- Title(参考訳): スパースフィードバックを用いた低リソースアライメントの多視点化に向けて
- Authors: Chu Fei Luo, Samuel Dahan, Xiaodan Zhu,
- Abstract要約: 我々は,多元的デコーディングとモデルステアリングという2つの手法を用いて,低リソース環境下での言語モデルの多元的アライメントを強化することを目指している。
提案手法は,ヘイトスピーチ検出や誤情報検出などのハイテイクタスクにおいて,偽陽性を減少させる。
私たちの研究が多様性の重要性と、言語モデルが微妙な視点に適応できる方法を強調していることを願っています。
- 参考スコア(独自算出の注目度): 13.065059683491958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models have a greater impact on society, it is important to ensure they are aligned to a diverse range of perspectives and are able to reflect nuance in human values. However, the most popular training paradigms for modern language models often assume there is one optimal answer for every query, leading to generic responses and poor alignment. In this work, we aim to enhance pluralistic alignment of language models in a low-resource setting with two methods: pluralistic decoding and model steering. We empirically demonstrate that model steering offers consistent improvement over zero-shot and few-shot baselines with only 50 annotated samples. Our proposed methods decrease false positives in several high-stakes tasks such as hate speech detection and misinformation detection, and improves the distributional alignment to human values in GlobalOpinionQA. We hope our work highlights the importance of diversity and how language models can be adapted to consider nuanced perspectives.
- Abstract(参考訳): 言語モデルは社会により大きな影響を与えるため、それらが様々な視点に整列し、人間の価値観のニュアンスを反映できることを保証することが重要である。
しかし、現代言語モデルの最も一般的なトレーニングパラダイムは、全てのクエリに最適な答えが1つあると仮定し、一般的な応答とアライメントが不十分である。
本研究では,多元的デコーディングとモデルステアリングという2つの手法を用いて,低リソース環境下での言語モデルの多元的アライメントを強化することを目的とする。
モデルステアリングが50の注釈付きサンプルでゼロショットと少数ショットのベースラインに対して一貫した改善をもたらすことを実証的に実証した。
提案手法は,ヘイトスピーチ検出や誤情報検出などのハイテイクタスクにおける偽陽性を低減し,GlobalOpinionQAにおける人間の値に対する分布アライメントを改善する。
私たちの研究が多様性の重要性と、言語モデルが微妙な視点に適応できる方法を強調していることを願っています。
関連論文リスト
- Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。