論文の概要: Pairwise Comparison for Bias Identification and Quantification
- arxiv url: http://arxiv.org/abs/2512.14565v1
- Date: Tue, 16 Dec 2025 16:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.796026
- Title: Pairwise Comparison for Bias Identification and Quantification
- Title(参考訳): バイアス同定と定量化のためのペアワイズ比較
- Authors: Fabian Haak, Philipp Schaer,
- Abstract要約: オンラインニュースとソーシャルメディアの言語バイアスを測定するのは難しい。
我々は、バイアスアノテーションのペアワイズ比較を活用することで、アノテーションの労力を削減することを目指している。
- 参考スコア(独自算出の注目度): 5.490018587818889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic bias in online news and social media is widespread but difficult to measure. Yet, its identification and quantification remain difficult due to subjectivity, context dependence, and the scarcity of high-quality gold-label datasets. We aim to reduce annotation effort by leveraging pairwise comparison for bias annotation. To overcome the costliness of the approach, we evaluate more efficient implementations of pairwise comparison-based rating. We achieve this by investigating the effects of various rating techniques and the parameters of three cost-aware alternatives in a simulation environment. Since the approach can in principle be applied to both human and large language model annotation, our work provides a basis for creating high-quality benchmark datasets and for quantifying biases and other subjective linguistic aspects. The controlled simulations include latent severity distributions, distance-calibrated noise, and synthetic annotator bias to probe robustness and cost-quality trade-offs. In applying the approach to human-labeled bias benchmark datasets, we then evaluate the most promising setups and compare them to direct assessment by large language models and unmodified pairwise comparison labels as baselines. Our findings support the use of pairwise comparison as a practical foundation for quantifying subjective linguistic aspects, enabling reproducible bias analysis. We contribute an optimization of comparison and matchmaking components, an end-to-end evaluation including simulation and real-data application, and an implementation blueprint for cost-aware large-scale annotation
- Abstract(参考訳): オンラインニュースやソーシャルメディアの言語バイアスは広く見られるが、測定することは困難である。
しかし、その識別と定量化は、主観性、文脈依存、高品質なゴールドラベルデータセットの不足のため、依然として困難である。
我々は、バイアスアノテーションのペアワイズ比較を活用することで、アノテーションの労力を削減することを目指している。
提案手法のコスト面を克服するため,ペアワイズ比較に基づく評価のより効率的な実装を評価した。
本研究は,シミュレーション環境における各種評価手法の効果と,コストを考慮した3つの代替案のパラメータについて検討する。
このアプローチは原則として人および大言語モデルアノテーションにも適用可能であるので、我々の研究は高品質なベンチマークデータセットを作成し、バイアスやその他の主観的な言語的側面を定量化するための基盤を提供する。
制御されたシミュレーションには、遅延重大度分布、距離校正ノイズ、およびロバスト性やコスト品質トレードオフを調査するための合成アノテータバイアスが含まれる。
ヒトラベル付きバイアスベンチマークデータセットへのアプローチの適用において、最も有望な設定を評価し、大きな言語モデルと修正されていないペアワイズ比較ラベルをベースラインとして直接評価する。
本研究は, 対比較を主観的言語的側面を定量化するための実践的基礎として活用することを支援し, 再現可能なバイアス分析を可能にした。
我々は、比較およびマッチングコンポーネントの最適化、シミュレーションと実データアプリケーションを含むエンドツーエンド評価、そしてコストを意識した大規模アノテーションの実装青写真に貢献する。
関連論文リスト
- Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。
1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Crowdsourcing subjective annotations using pairwise comparisons reduces
bias and error compared to the majority-vote method [0.0]
本稿では,ランダムな誤差と測定バイアスが,主観的構成物のクラウドソースアノテーションにどのように入るかを理解するための理論的枠組みを提案する。
次に、Eloスコアとペア比較ラベリングを組み合わせたパイプラインを提案し、両種類の測定誤差を低減するために、ユビキタスな多数投票法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T17:14:12Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。