論文の概要: Capturing Visualization Design Rationale
- arxiv url: http://arxiv.org/abs/2506.16571v1
- Date: Thu, 19 Jun 2025 19:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:56.590483
- Title: Capturing Visualization Design Rationale
- Title(参考訳): ビジュアライゼーション・デザイン・ラリーのキャプチャー
- Authors: Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Jo Wood, Pranava Madhyastha,
- Abstract要約: 自然言語による可視化設計の合理性を探るための新しいデータセットと方法論を提案する。
データビジュアライゼーションコースの一環として、学生が作成した視覚化ノートをリライトする。
また、大きな言語モデル(LLM)を用いて、ノートブックのナラティブや調音文から質問-回答-合理3つを生成・分類する。
- 参考スコア(独自算出の注目度): 5.051297047598238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior natural language datasets for data visualization have focused on tasks such as visualization literacy assessment, insight generation, and visualization generation from natural language instructions. These studies often rely on controlled setups with purpose-built visualizations and artificially constructed questions. As a result, they tend to prioritize the interpretation of visualizations, focusing on decoding visualizations rather than understanding their encoding. In this paper, we present a new dataset and methodology for probing visualization design rationale through natural language. We leverage a unique source of real-world visualizations and natural language narratives: literate visualization notebooks created by students as part of a data visualization course. These notebooks combine visual artifacts with design exposition, in which students make explicit the rationale behind their design decisions. We also use large language models (LLMs) to generate and categorize question-answer-rationale triples from the narratives and articulations in the notebooks. We then carefully validate the triples and curate a dataset that captures and distills the visualization design choices and corresponding rationales of the students.
- Abstract(参考訳): データビジュアライゼーションのための以前の自然言語データセットは、ビジュアライゼーションリテラシー評価、洞察生成、自然言語命令からのビジュアライゼーション生成といったタスクに重点を置いていた。
これらの研究は、しばしば、汎用的な視覚化と人工的に構築された質問による制御された設定に依存している。
結果として、彼らは視覚化の解釈を優先し、符号化を理解するよりも視覚化の復号化に注力する傾向にある。
本稿では,自然言語による可視化設計の合理性を探索するための新しいデータセットと方法論を提案する。
データビジュアライゼーションコースの一環として、学生が作成した視覚化ノートをリライトする。
これらのノートは、視覚的なアーティファクトとデザインの展示を組み合わせることで、学生が設計決定の背後にある根拠を明確にする。
また、大きな言語モデル(LLM)を用いて、ノートブックのナラティブや調音文から質問-回答-合理3つを生成・分類する。
次に、三つ組を慎重に検証し、学生の可視化設計選択とそれに対応する論理をキャプチャし、蒸留するデータセットをキュレートする。
関連論文リスト
- Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - Natural Language Generation for Visualizations: State of the Art, Challenges and Future Directions [7.064953237013352]
可視化のためのテキスト生成に焦点を当てた研究に焦点をあてる。
提案手法のNLG問題と設計空間を特徴付けるために、5つのWh-questionsを示す。
この5つのWh-questionsに基づく調査論文のソリューションを分類する。
論文 参考訳(メタデータ) (2024-09-29T15:53:18Z) - Beyond Embeddings: The Promise of Visual Table in Visual Reasoning [38.558250602212425]
視覚的推論に適した新しい視覚表現形式である視覚表を提案する。
ビジュアルテーブルは、視覚シーンの階層的な記述として構築され、シーン記述と複数のオブジェクト中心の記述が特徴である。
それらは、視覚的推論に不可欠な、インスタンスレベルの世界知識と詳細な属性を提供します。
論文 参考訳(メタデータ) (2024-03-27T04:49:23Z) - Visually Dehallucinative Instruction Generation [0.8192907805418583]
本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。
提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-02-13T10:25:45Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。