論文の概要: Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content
- arxiv url: http://arxiv.org/abs/2110.04406v1
- Date: Fri, 8 Oct 2021 23:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 06:42:33.203141
- Title: Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content
- Title(参考訳): 自然言語記述によるアクセシブルな可視化:意味内容の4レベルモデル
- Authors: Alan Lundgard and Arvind Satyanarayan
- Abstract要約: 可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
- 参考スコア(独自算出の注目度): 6.434361163743876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language descriptions sometimes accompany visualizations to better
communicate and contextualize their insights, and to improve their
accessibility for readers with disabilities. However, it is difficult to
evaluate the usefulness of these descriptions, and how effectively they improve
access to meaningful information, because we have little understanding of the
semantic content they convey, and how different readers receive this content.
In response, we introduce a conceptual model for the semantic content conveyed
by natural language descriptions of visualizations. Developed through a
grounded theory analysis of 2,147 sentences, our model spans four levels of
semantic content: enumerating visualization construction properties (e.g.,
marks and encodings); reporting statistical concepts and relations (e.g.,
extrema and correlations); identifying perceptual and cognitive phenomena
(e.g., complex trends and patterns); and elucidating domain-specific insights
(e.g., social and political context). To demonstrate how our model can be
applied to evaluate the effectiveness of visualization descriptions, we conduct
a mixed-methods evaluation with 30 blind and 90 sighted readers, and find that
these reader groups differ significantly on which semantic content they rank as
most useful. Together, our model and findings suggest that access to meaningful
information is strongly reader-specific, and that research in automatic
visualization captioning should orient toward descriptions that more richly
communicate overall trends and statistics, sensitive to reader preferences. Our
work further opens a space of research on natural language as a data interface
coequal with visualization.
- Abstract(参考訳): 自然言語記述は、コミュニケーションや文脈化、障害のある読者へのアクセシビリティ向上のために、可視化に付随することがある。
しかし、これらの記述の有用性や、それらが意味のある情報へのアクセスをいかに効果的に改善するかを評価することは困難である。
そこで本研究では,可視化の自然言語記述による意味内容の概念モデルを提案する。
このモデルは,2,147文の根拠付き理論分析を通じて,可視化構築特性(マークやエンコーディングなど)の列挙,統計的概念と関係(エクストリームや相関など)の報告,知覚的・認知的現象(複雑な傾向やパターンなど)の識別,ドメイン固有の洞察(社会的・政治的文脈など)の解明の4段階にまたがる。
本研究では,視覚的記述の有効性を評価するために,視覚障害者30名と視覚障害者90名による混合手法による評価を行い,どのセマンティック・コンテンツが最も有用かにおいて,これらのリーダー群が有意に異なることを示す。
モデルと知見を組み合わせることで,意味のある情報へのアクセスは読み手固有のものであり,自動可視化キャプションの研究は,読み手の好みに敏感な,全体的な傾向や統計をより豊かに伝達する記述に向かわせるべきであることが示唆された。
我々の研究は、可視化と同等のデータインターフェースとして自然言語の研究空間をさらに開放する。
関連論文リスト
- Evaluating Attribute Comprehension in Large Vision-Language Models [18.513510568037624]
本研究では,属性認識と属性階層理解という2つの視点から,大規模視覚言語モデルの属性理解能力を評価する。
1)大きな視覚言語モデルは属性認識能力が高いが,その階層的理解能力は比較的限られている。
この研究が、大きな視覚言語モデルのきめ細かな視覚的理解の今後の進歩を導くのに役立つことを願っている。
論文 参考訳(メタデータ) (2024-08-25T17:42:05Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。