論文の概要: Computer Vision and Conflicting Values: Describing People with Automated
Alt Text
- arxiv url: http://arxiv.org/abs/2105.12754v1
- Date: Wed, 26 May 2021 18:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 15:28:35.033314
- Title: Computer Vision and Conflicting Values: Describing People with Automated
Alt Text
- Title(参考訳): コンピュータビジョンと競合する価値: 自動化されたAltテキストで人々を記述
- Authors: Margot Hanley, Solon Barocas, Karen Levy, Shiri Azenkot, Helen
Nissenbaum
- Abstract要約: 本稿では,コンピュータビジョンを用いてアルトテキストを制作している企業が直面する倫理的ジレンマについて検討する。
私たちは、Facebookの自動アルトテキストツールを主要なケーススタディとして使用しています。
- 参考スコア(独自算出の注目度): 11.656318345362804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scholars have recently drawn attention to a range of controversial issues
posed by the use of computer vision for automatically generating descriptions
of people in images. Despite these concerns, automated image description has
become an important tool to ensure equitable access to information for blind
and low vision people. In this paper, we investigate the ethical dilemmas faced
by companies that have adopted the use of computer vision for producing alt
text: textual descriptions of images for blind and low vision people, We use
Facebook's automatic alt text tool as our primary case study. First, we analyze
the policies that Facebook has adopted with respect to identity categories,
such as race, gender, age, etc., and the company's decisions about whether to
present these terms in alt text. We then describe an alternative -- and manual
-- approach practiced in the museum community, focusing on how museums
determine what to include in alt text descriptions of cultural artifacts. We
compare these policies, using notable points of contrast to develop an analytic
framework that characterizes the particular apprehensions behind these policy
choices. We conclude by considering two strategies that seem to sidestep some
of these concerns, finding that there are no easy ways to avoid the normative
dilemmas posed by the use of computer vision to automate alt text.
- Abstract(参考訳): 研究者は最近、画像中の人の説明を自動的に生成するコンピュータビジョンの使用によって引き起こされる様々な議論の的となっている問題に注意を向けている。
これらの懸念にもかかわらず、視覚障害者や視力低下者の情報への公平なアクセスを確保するために、自動画像記述が重要なツールとなっている。
本稿では,視覚障害者のための画像のテキスト記述を基本ケーススタディとして,コンピュータビジョンを用いてアルトテキストを制作している企業が直面している倫理的ジレンマについて検討する。
まず、人種、性別、年齢などのアイデンティティカテゴリに関してfacebookが採用したポリシーと、これらの用語をaltテキストで提示するかどうかに関する同社の決定を分析する。
次に、博物館のコミュニティで実践されている代替と手動のアプローチについて記述し、博物館がどのように文化的なアーティファクトのテキスト記述に含めるべきかを決定するかに焦点を当てる。
我々はこれらの政策を比較し、対照的な点を用いて、これらの政策選択の背後にある特定の理解を特徴付ける分析フレームワークを開発する。
我々は、これらの懸念のいくつかを横取りしているように見える2つの戦略を考察し、コンピュータービジョンによるアルトテキストの自動化による規範的ジレンマを避けるための簡単な方法がないと結論づける。
関連論文リスト
- Pixels to Prose: Understanding the art of Image Captioning [1.9635669040319872]
画像キャプションにより、機械は視覚的コンテンツを解釈し、記述的なテキストを生成することができる。
レビューでは、画像キャプションモデルの進化を最新の最先端ソリューションに遡る。
医療領域における画像キャプションの適用についても検討した。
論文 参考訳(メタデータ) (2024-08-28T11:21:23Z) - Modes of Analyzing Disinformation Narratives With AI/ML/Text Mining to Assist in Mitigating the Weaponization of Social Media [0.8287206589886879]
本稿では,ソーシャルメディアにおける悪意あるコミュニケーションを捕捉・監視するための定量的モードの必要性を明らかにする。
ソーシャル・ネットワークを利用したメッセージの「ウェポン化」が意図的に行われており、州が後援し、私的に運営される政治的指向のエンティティも含む。
FacebookやX/Twitterのような主要プラットフォームにモデレーションを導入しようとする試みにもかかわらず、完全にモデレートされていないスペースを提供する代替ソーシャルネットワークが現在確立されている。
論文 参考訳(メタデータ) (2024-05-25T00:02:14Z) - Towards Real Time Egocentric Segment Captioning for The Blind and
Visually Impaired in RGB-D Theatre Images [0.6345523830122166]
本稿では,視覚障害者が画像キャプションを用いて周囲を理解できるようにするアプローチを提案する。
本研究の特長は,地域の位置や対象,地域間の位置関係を記述できることである。
TS-RGBDデータセットにこのソリューションを適用することで、劇場演劇へのアクセスを目標としています。
論文 参考訳(メタデータ) (2023-08-26T14:27:10Z) - Alt-Text with Context: Improving Accessibility for Images on Twitter [30.28576644504692]
本稿では,ソーシャルメディア,特にTwitterで共有された画像のアルトテキスト記述を生成するアプローチを提案する。
Twitterに投稿された画像には、便利なコンテキストを提供するユーザ記述のテキストが添付されることが多い。
従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。
論文 参考訳(メタデータ) (2023-05-24T06:35:26Z) - Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.34830433299268]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。
各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。
また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文 参考訳(メタデータ) (2022-10-17T17:11:36Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。