論文の概要: Signals of Provenance: Practices & Challenges of Navigating Indicators in AI-Generated Media for Sighted and Blind Individuals
- arxiv url: http://arxiv.org/abs/2505.16057v1
- Date: Wed, 21 May 2025 22:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.933302
- Title: Signals of Provenance: Practices & Challenges of Navigating Indicators in AI-Generated Media for Sighted and Blind Individuals
- Title(参考訳): 発見のシグナル:目と盲人のためのAI生成メディアにおける指標のナビゲーションの実践と課題
- Authors: Ayae Ide, Tory Park, Jaron Mink, Tanusree Sharma,
- Abstract要約: 自己開示指標によるAIGコンテンツとの相互作用を検討するため,視覚障害者とBLV参加者にインタビューを行った。
我々は、一貫性のない指標配置、不明確なメタデータ、認知的過負荷から生じるユーザビリティの課題を明らかにした。
- 参考スコア(独自算出の注目度): 4.129013761788427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-Generated (AIG) content has become increasingly widespread by recent advances in generative models and the easy-to-use tools that have significantly lowered the technical barriers for producing highly realistic audio, images, and videos through simple natural language prompts. In response, platforms are adopting provable provenance with platforms recommending AIG to be self-disclosed and signaled to users. However, these indicators may be often missed, especially when they rely solely on visual cues and make them ineffective to users with different sensory abilities. To address the gap, we conducted semi-structured interviews (N=28) with 15 sighted and 13 BLV participants to examine their interaction with AIG content through self-disclosed AI indicators. Our findings reveal diverse mental models and practices, highlighting different strengths and weaknesses of content-based (e.g., title, description) and menu-aided (e.g., AI labels) indicators. While sighted participants leveraged visual and audio cues, BLV participants primarily relied on audio and existing assistive tools, limiting their ability to identify AIG. Across both groups, they frequently overlooked menu-aided indicators deployed by platforms and rather interacted with content-based indicators such as title and comments. We uncovered usability challenges stemming from inconsistent indicator placement, unclear metadata, and cognitive overload. These issues were especially critical for BLV individuals due to the insufficient accessibility of interface elements. We provide practical recommendations and design implications for future AIG indicators across several dimensions.
- Abstract(参考訳): AI生成(AIG)コンテンツは、生成モデルの最近の進歩と、単純な自然言語プロンプトを通じて、高度に現実的なオーディオ、画像、ビデオを生成するための技術的障壁を著しく減らした使いやすいツールによって、急速に普及している。
プラットフォームは、AIGを自己開示し、ユーザに通知することを推奨するプラットフォームで、証明可能な証明を採用しています。
しかし、これらの指標は、特に視覚的手がかりにのみ依存し、異なる感覚能力を持つユーザーには効果がない場合、しばしば見逃される。
このギャップに対処するため、15人の目撃者と13人のBLV参加者による半構造化インタビュー(N=28)を行い、自己開示AI指標を用いてAIGコンテンツとの相互作用について検討した。
我々の発見は、さまざまなメンタルモデルとプラクティスを明らかにし、コンテンツベース(例えば、タイトル、説明)とメニュー支援(例えば、AIラベル)のさまざまな長所と短所を強調した。
視力のある参加者は視覚とオーディオの手がかりを活用する一方で、BLVの参加者は主にオーディオと既存の補助ツールに依存しており、AIGを識別する能力は制限されていた。
どちらのグループも、プラットフォームが展開するメニュー支援指標をしばしば見落とし、タイトルやコメントなどのコンテンツベースの指標と対話した。
我々は、一貫性のない指標配置、不明確なメタデータ、認知的過負荷から生じるユーザビリティの課題を明らかにした。
これらの問題は、インターフェース要素のアクセシビリティが不十分なため、BLV個人にとって特に重要であった。
いくつかの次元にわたる将来のAIG指標に対する実用的な勧告と設計上の意味を提供する。
関連論文リスト
- Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。
本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance [18.467461615621872]
視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
論文 参考訳(メタデータ) (2025-03-17T05:43:40Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。