論文の概要: EMBRACE: Shaping Inclusive Opinion Representation by Aligning Implicit Conversations with Social Norms
- arxiv url: http://arxiv.org/abs/2507.20264v1
- Date: Sun, 27 Jul 2025 13:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.364714
- Title: EMBRACE: Shaping Inclusive Opinion Representation by Aligning Implicit Conversations with Social Norms
- Title(参考訳): EMBRACE:社会的ノルムによる意図的会話のアライメントによる包括的オピニオン表現の形成
- Authors: Abeer Aldayel, Areej Alokaili,
- Abstract要約: 本研究の目的は、アライメント評価フレームワークを導入することで、NLPや計算モデルで意見がどのように表現されるかを評価することである。
我々のアプローチは、反応のスタンスを基礎となる意見の代理としてモデル化し、多様な社会的視点を考慮し、反映した表現を可能にする。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shaping inclusive representations that embrace diversity and ensure fair participation and reflections of values is at the core of many conversation-based models. However, many existing methods rely on surface inclusion using mention of user demographics or behavioral attributes of social groups. Such methods overlook the nuanced, implicit expression of opinion embedded in conversations. Furthermore, the over-reliance on overt cues can exacerbate misalignment and reinforce harmful or stereotypical representations in model outputs. Thus, we took a step back and recognized that equitable inclusion needs to account for the implicit expression of opinion and use the stance of responses to validate the normative alignment. This study aims to evaluate how opinions are represented in NLP or computational models by introducing an alignment evaluation framework that foregrounds implicit, often overlooked conversations and evaluates the normative social views and discourse. Our approach models the stance of responses as a proxy for the underlying opinion, enabling a considerate and reflective representation of diverse social viewpoints. We evaluate the framework using both (i) positive-unlabeled (PU) online learning with base classifiers, and (ii) instruction-tuned language models to assess post-training alignment. Through this, we provide a lens on how implicit opinions are (mis)represented and offer a pathway toward more inclusive model behavior.
- Abstract(参考訳): 多様性を受け入れ、公平な参加と価値の反映を保証する包括的表現は、多くの会話ベースのモデルの中核にある。
しかし、既存の多くの手法は、ユーザ人口統計や社会集団の行動特性に言及して表面的包摂に依存している。
このような手法は、会話に埋め込まれた曖昧で暗黙的な意見表現を見落としている。
さらに、オーバートキューに対する過度な信頼は、誤調整を悪化させ、モデル出力における有害またはステレオタイプ表現を補強する。
そこで、我々は一歩後退して、公平な包摂性は意見の暗黙的な表現を考慮し、反応のスタンスを用いて規範的アライメントを検証する必要があると認識した。
本研究の目的は、暗黙的、しばしば見過ごされる会話を前提としたアライメント評価フレームワークを導入し、規範的社会観と談話を評価することにより、NLPや計算モデルにおける意見の表現方法を評価することである。
我々のアプローチは、反応のスタンスを基礎となる意見の代理としてモデル化し、多様な社会的視点を考慮し、反映した表現を可能にする。
両方を用いてフレームワークを評価する
(i)ベース分類器を用いたPull-Unlabeled(PU)オンライン学習
(II)訓練後アライメントを評価するための命令調整言語モデル。
これを通じて、暗黙の意見がどのように表現されているかというレンズを提供し、より包括的なモデル行動への道筋を提供する。
関連論文リスト
- CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Political Bias in LLMs: Unaligned Moral Values in Agent-centric Simulations [0.0]
モーラル・ファンデーション理論アンケートにおいて,パーソナライズされた言語モデルと人間の反応がどのように一致しているかを検討する。
我々は、オープンソースの生成言語モデルを異なる政治的ペルソナに適応させ、これらのモデルを繰り返し調査し、合成データセットを生成する。
解析の結果,モデルが複数の繰り返しにまたがって不整合な結果をもたらし,高い応答差が生じることがわかった。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Can Interpretability Layouts Influence Human Perception of Offensive Sentences? [1.474723404975345]
本稿では、3つの機械学習(ML)の解釈可能性レイアウトが、ヘイトスピーチを含む文を評価する際の参加者の視点に影響を及ぼすかどうかを評価する。
論文 参考訳(メタデータ) (2024-03-01T13:25:54Z) - Regularized Conventions: Equilibrium Computation as a Model of Pragmatic
Reasoning [72.21876989058858]
本稿では,信号ゲームの正規化平衡を探索することにより,発話を生成・理解する実用的な言語理解のモデルを提案する。
このモデルでは、話者とリスナーは文脈的に適切な発話を探索し、ゲーム理論の最適規則に近づき、共有された'デフォルト'セマンティクスに近い意味のマッピングを意味づける。
論文 参考訳(メタデータ) (2023-11-16T09:42:36Z) - Inducing Political Bias Allows Language Models Anticipate Partisan
Reactions to Controversies [5.958974943807783]
本研究では,Large Language Models (LLMs) を用いたデジタル談話における政治的偏見の理解の課題に対処する。
本稿では,Partisan Bias Divergence AssessmentとPartisan Class Tendency Predictionからなる包括的分析フレームワークを提案する。
以上の結果から,感情的・道徳的ニュアンスを捉えたモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-11-16T08:57:53Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks [47.609417223514605]
この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
実験により,SAIEフレームワークで微調整したモデルでは,従来の微調整手法で訓練したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-14T12:12:25Z) - A Unifying Framework for Learning Argumentation Semantics [47.84663434179473]
Inductive Logic Programmingアプローチを用いて、抽象的および構造化された議論フレームワークのアクセシビリティセマンティクスを解釈可能な方法で学習する新しいフレームワークを提案する。
提案手法は既存の議論解法よりも優れており,フォーマルな議論や人間と機械の対話の領域において,新たな研究の方向性が開けることになる。
論文 参考訳(メタデータ) (2023-10-18T20:18:05Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - A model to support collective reasoning: Formalization, analysis and
computational assessment [1.126958266688732]
そこで本研究では,人間の議論を表現する新しいモデルと,それらから集合的な結論を得る方法を提案する。
このモデルは、ユーザが議論に新しい情報を導入することによって、既存のアプローチの欠点を克服する。
合意の欠如があっても、集約された意見が一貫性を持つことが示される。
論文 参考訳(メタデータ) (2020-07-14T06:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。