論文の概要: Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals
- arxiv url: http://arxiv.org/abs/2603.03242v1
- Date: Tue, 03 Mar 2026 18:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.931777
- Title: Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals
- Title(参考訳): 密度誘導応答最適化:入射受信信号によるコミュニティ周囲のアライメント
- Authors: Patrick Gerard, Svitlana Volkova,
- Abstract要約: 受理応答は,コミュニティ固有の規範を反映した,一貫性のある高密度領域を占有することを示す。
本稿では,言語モデルとコミュニティ規範を一致させる手法である密度誘導応答最適化(DGRO)について,明示的な選好ラベルを必要とせずに紹介する。
- 参考スコア(独自算出の注目度): 0.8839687029212673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models deployed in online communities must adapt to norms that vary across social, cultural, and domain-specific contexts. Prior alignment approaches rely on explicit preference supervision or predefined principles, which are effective for well-resourced settings but exclude most online communities -- particularly those without institutional backing, annotation infrastructure, or organized around sensitive topics -- where preference elicitation is costly, ethically fraught, or culturally misaligned. We observe that communities already express preferences implicitly through what content they accept, engage with, and allow to persist. We show that this acceptance behavior induces measurable geometric structure in representation space: accepted responses occupy coherent, high-density regions that reflect community-specific norms, while rejected content falls in sparser or misaligned areas. We operationalize this structure as an implicit preference signal for alignment and introduce density-guided response optimization (DGRO), a method that aligns language models to community norms without requiring explicit preference labels. Using labeled preference data, we demonstrate that local density recovers pairwise community judgments, indicating that geometric structure encodes meaningful preference signal. We then apply DGRO in annotation-scarce settings across diverse communities spanning platform, topic, and language. DGRO-aligned models consistently produce responses preferred by human annotators, domain experts, and model-based judges over supervised and prompt-based baselines. We position DGRO as a practical alignment alternative for communities where explicit preference supervision is unavailable or misaligned with situated practices, and discuss the implications and risks of learning from emergent acceptance behavior.
- Abstract(参考訳): オンラインコミュニティに展開される言語モデルは、社会的、文化的、ドメイン固有のコンテキストによって異なる規範に適応する必要がある。
事前のアライメントアプローチは明示的な選好の監督や事前定義された原則に頼っているため、十分なリソースの確保には有効だが、ほとんどのオンラインコミュニティ(特に機関のバックアップやアノテーションのインフラのないコミュニティ、あるいはセンシティブなトピックを中心に組織されたコミュニティ)は除外されている。
私たちは、コミュニティがどのコンテンツを受け入れ、関与し、持続することを暗黙的に表現しているのを観察します。
受理応答は、コミュニティ固有の規範を反映したコヒーレントで高密度な領域を占有し、削除されたコンテンツは、スペーサーや不整合領域に落下する。
この構造をアライメントのための暗黙の選好信号として運用し、明示的な選好ラベルを必要とせずに言語モデルをコミュニティ規範に整合させる手法である密度誘導応答最適化(DGRO)を導入する。
ラベル付き嗜好データを用いて,局所密度が一対のコミュニティ判断を復元し,幾何学的構造が有意な選好信号を符号化していることを示す。
次にDGROを、プラットフォーム、トピック、言語にまたがる様々なコミュニティにまたがるアノテーション・スカース設定に適用する。
DGROに準拠したモデルは、教師付きおよびプロンプトベースのベースラインよりも、人間のアノテータ、ドメインの専門家、およびモデルベースの裁判官に好まれる応答を一貫して生成する。
我々は、DGROを、明示的な選好監督が不可能なコミュニティや、位置するプラクティスと不一致なコミュニティの実践的なアライメントの代替として位置づけ、創発的受容行動から学ぶことの意味とリスクについて議論する。
関連論文リスト
- Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - Where Norms and References Collide: Evaluating LLMs on Normative Reasoning [3.8431932182760296]
ロボットのような身体的エージェントは、コミュニケーションの成功が社会的規範の推論に依存することが多い場所にいる環境で対話する必要がある。
大規模な言語モデル(LLM)がこのような推論をサポートできるかどうかは不明だ。
SNIC(Situated Norms in Context)は,最先端のLCMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを探索する,有能な診断テストベッドである。
論文 参考訳(メタデータ) (2026-02-03T01:23:22Z) - Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - Latent Adversarial Regularization for Offline Preference Optimization [21.271580780278473]
本稿では,ポリシーモデルの内部表現と参照モデルとの相違を罰し,潜在空間の正則化を実現するGANPOを紹介する。
複数のモデルアーキテクチャとタスクにわたる実験は、潜在空間の正規化から一貫した改善を示している。
論文 参考訳(メタデータ) (2026-01-29T18:21:57Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces [3.203159763233367]
マルチ基準アライメントのためのベンチマークであるLocal Intersectional Visual Spacesデータセットを紹介する。
このデータセットは、13,462の画像に対して37,710のペア比較を符号化しており、6つの基準に沿って構成されている。
安定拡散XLを微調整し,複数条件の空間的嗜好を反映し,LIVSデータセットと微調整モデルを評価する。
論文 参考訳(メタデータ) (2025-02-27T19:18:37Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - An Adaptive Deep RL Method for Non-Stationary Environments with
Piecewise Stable Context [109.49663559151377]
未知の環境コンテキストへの適応に関する既存の作業は、コンテキストが全エピソードで同じであると仮定するか、コンテキスト変数がマルコフ的であると仮定するかのどちらかである。
本稿では,textittextbfSegmented textbfContext textbfBelief textbfAugmented textbfDeep(SeCBAD) RL法を提案する。
提案手法は,潜在コンテキスト上の信念分布と後方セグメント長とを共同で推定し,観測データを用いたより正確な信念コンテキスト推定を行う。
論文 参考訳(メタデータ) (2022-12-24T13:43:39Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - Detecting Community Sensitive Norm Violations in Online Conversations [21.892867827127603]
我々は、より完全なコミュニティ規範と、地域の会話とグローバルなコミュニティコンテキストにおけるそれらの違反に焦点を当てる。
我々は、このデータを用いて、コンテキストやコミュニティに敏感なノルム違反検出を開発する一連のモデルを紹介した。
論文 参考訳(メタデータ) (2021-10-09T00:39:35Z) - Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation [78.38321096371106]
先行技術はラベル付きソースとラベルなしターゲットの両方への同時アクセスを前提としており、ソースフリー適応を必要とするシナリオには適さない。
本研究では、タスクをa)ソースのみのドメイン一般化とb)ソースフリーなターゲット適応の2つに分割することで、ソースフリーのDAを可能にする。
本研究では,空間的不規則性を回避し,擬似ラベル品質を向上する条件付き事前強化オートエンコーダを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。