論文の概要: Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation
- arxiv url: http://arxiv.org/abs/2402.01705v2
- Date: Mon, 6 May 2024 21:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:34:38.649772
- Title: Beyond Behaviorist Representational Harms: A Plan for Measurement and Mitigation
- Title(参考訳): 行動主義的表現的ハームを超えて : 測定と緩和のための計画
- Authors: Jennifer Chien, David Danks,
- Abstract要約: 本研究は,現在定義されている表現的害の定義に焦点をあてて,含まないものと含まないものを識別する。
私たちの研究は、表現的害を繰り返すための大きな言語モデルのユニークな脆弱性を強調します。
本研究の目的は,表現的害の定義を拡大するための枠組みを確立することである。
- 参考スコア(独自算出の注目度): 1.7355698649527407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Algorithmic harms are commonly categorized as either allocative or representational. This study specifically addresses the latter, focusing on an examination of current definitions of representational harms to discern what is included and what is not. This analysis motivates our expansion beyond behavioral definitions to encompass harms to cognitive and affective states. The paper outlines high-level requirements for measurement: identifying the necessary expertise to implement this approach and illustrating it through a case study. Our work highlights the unique vulnerabilities of large language models to perpetrating representational harms, particularly when these harms go unmeasured and unmitigated. The work concludes by presenting proposed mitigations and delineating when to employ them. The overarching aim of this research is to establish a framework for broadening the definition of representational harms and to translate insights from fairness research into practical measurement and mitigation praxis.
- Abstract(参考訳): アルゴリズム的害は一般に、割当的または表現的に分類される。
本研究は後者に特に焦点をあて,現在の表現的害の定義を検証し,含まないものと含まないものを識別することに焦点を当てた。
この分析は、行動の定義を超えて、認知的および情緒的状態への害を包含する我々の拡張を動機付けている。
このアプローチを実装するために必要な専門知識を特定し、ケーススタディを通じてそれを説明する。
我々の研究は、大きな言語モデルのユニークな脆弱性を強調し、特にこれらの害が未測定で軽減された場合に、表現的害を反復する。
この作業は、提案された緩和を提示し、いつ採用するかを明記することで締めくくられる。
本研究の総括的目的は,表現的害の定義を拡大する枠組みを確立し,公平性研究からの洞察を実践的測定・緩和実践に翻訳することである。
関連論文リスト
- A Survey of Defenses against AI-generated Visual Media: Detection, Disruption, and Authentication [15.879482578829489]
深層生成モデルは様々なコンピュータビジョンアプリケーションで顕著な性能を示した。
これらのモデルは、誤情報、偽造、著作権侵害などの悪意ある目的のために使用されることがある。
本稿では,AI生成したビジュアルメディアに対する防衛研究の体系的かつタイムリーなレビューを行う。
論文 参考訳(メタデータ) (2024-07-15T09:46:02Z) - The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning [70.16523526957162]
常識の因果関係を理解することは、人々が現実世界の原理をよりよく理解するのに役立ちます。
その重要性にもかかわらず、このトピックの体系的な探索は特に欠落している。
本研究の目的は、体系的な概要の提供、最近の進歩に関する学者の更新、初心者のための実践的なガイドを提供することである。
論文 参考訳(メタデータ) (2024-06-27T16:30:50Z) - Towards Non-Adversarial Algorithmic Recourse [20.819764720587646]
反実的な説明とは対照的に、敵対的な例は、それらが根底的な真実よりも誤分類につながるという独特の特徴を持っていると論じられている。
本稿では,非対人的アルゴリズムの議論を紹介するとともに,高い状況下では,対人的特徴を示さない対実的説明を得ることが不可欠である理由を概説する。
論文 参考訳(メタデータ) (2024-03-15T14:18:21Z) - An Investigation of Representation and Allocation Harms in Contrastive
Learning [55.42336321517228]
比較学習 (CL) は, 少数集団と少数集団の表現を崩壊させる傾向にあることを示す。
本稿では,この現象を表現障害と呼び,対応するCL手法を用いて画像とテキストのデータセットに示す。
対照的な学習環境において,表現の崩壊につながるニューラルブロックモデルを用いて表現障害の理論的説明を行う。
論文 参考訳(メタデータ) (2023-10-02T19:25:37Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - A Principled Design of Image Representation: Towards Forensic Tasks [75.40968680537544]
本稿では, 理論, 実装, 応用の観点から, 法科学指向の画像表現を別の問題として検討する。
理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。
本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。
論文 参考訳(メタデータ) (2022-03-02T07:46:52Z) - A dual benchmarking study of facial forgery and facial forensics [28.979062525272866]
近年、視覚的偽造は、人間が詐欺を特定できないような高度な水準に達している。
この危険な傾向を止めるために、豊富な視覚法医学的手法が提案されている。
本稿では,視覚的偽造と視覚的鑑識に関する詳細な知見を提供するベンチマークを提案する。
論文 参考訳(メタデータ) (2021-11-25T05:01:08Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Adversarial Machine Learning in Image Classification: A Survey Towards
the Defender's Perspective [1.933681537640272]
逆の例は、悪意のある最適化アルゴリズムによって生成される微妙な摂動を含む画像である。
ディープラーニングアルゴリズムは、生体認証システムや自動運転車など、セキュリティクリティカルなアプリケーションで使われてきた。
論文 参考訳(メタデータ) (2020-09-08T13:21:55Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。