論文の概要: GQVis: A Dataset of Genomics Data Questions and Visualizations for Generative AI
- arxiv url: http://arxiv.org/abs/2510.13816v1
- Date: Fri, 19 Sep 2025 21:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.163558
- Title: GQVis: A Dataset of Genomics Data Questions and Visualizations for Generative AI
- Title(参考訳): GQVis: ジェネレーティブAIのためのゲノムデータ質問と可視化のデータセット
- Authors: Skylar Sargent Walters, Arthea Valderrama, Thomas C. Smits, David Kouřil, Huyen N. Nguyen, Sehi L'Yi, Devin Lange, Nils Gehlenborg,
- Abstract要約: 本稿では,ゲノムデータに関する抽象的,低レベルな質問と,それに対応する視覚化を組み合わせたデータセットを生成するフレームワークを提案する。
我々は、GQVisを生成するために、3つの異なるゲノムデータレポジトリ(4DN, ENCODE, Chromoscope)から取得したゲノムデータを用いている。
- 参考スコア(独自算出の注目度): 8.6230004297124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data visualization is a fundamental tool in genomics research, enabling the exploration, interpretation, and communication of complex genomic features. While machine learning models show promise for transforming data into insightful visualizations, current models lack the training foundation for domain-specific tasks. In an effort to provide a foundational resource for genomics-focused model training, we present a framework for generating a dataset that pairs abstract, low-level questions about genomics data with corresponding visualizations. Building on prior work with statistical plots, our approach adapts to the complexity of genomics data and the specialized representations used to depict them. We further incorporate multiple linked queries and visualizations, along with justifications for design choices, figure captions, and image alt-texts for each item in the dataset. We use genomics data retrieved from three distinct genomics data repositories (4DN, ENCODE, Chromoscope) to produce GQVis: a dataset consisting of 1.14 million single-query data points, 628k query pairs, and 589k query chains. The GQVis dataset and generation code are available at https://huggingface.co/datasets/HIDIVE/GQVis and https://github.com/hms-dbmi/GQVis-Generation.
- Abstract(参考訳): データビジュアライゼーションはゲノム研究の基本的なツールであり、複雑なゲノム機能の探索、解釈、コミュニケーションを可能にする。
機械学習モデルは、データを洞察力のある視覚化に変換することを約束する一方で、現在のモデルは、ドメイン固有のタスクのトレーニング基盤を欠いている。
ゲノミクスに焦点を当てたモデルトレーニングの基盤となるリソースを提供するために,ゲノムデータに関する抽象的,低レベルな質問とそれに対応する視覚化を組み合わせたデータセットを生成するためのフレームワークを提案する。
統計的プロットを用いた先行研究に基づいて、我々の手法はゲノムデータの複雑さとそれらを表現するための特殊表現に適応する。
さらに、複数のリンクされたクエリと視覚化、および、データセットの各項目に対する設計選択、図形キャプション、イメージアルトテキストの正当化も含んでいます。
我々は、GQVisを生成するために、3つの異なるゲノムデータリポジトリ(4DN, ENCODE, Chromoscope)から取得したゲノムデータを使用します。
GQVisデータセットと生成コードはhttps://huggingface.co/datasets/HIDIVE/GQVisとhttps://github.com/hms-dbmi/GQVis-Generationで入手できる。
関連論文リスト
- Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
タスクツリーを用いたグラフのクロスタスク一般化のための新しい手法を提案する。
本稿では,グラフニューラルネットワーク(GNN)を多種多様なタスクツリー上で事前学習することにより,伝達可能な知識を誘導することを示す。
これにより、最小限の微調整で下流タスクに効率的に適応できる。
論文 参考訳(メタデータ) (2024-12-21T02:07:43Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - A Scalable Tool For Analyzing Genomic Variants Of Humans Using Knowledge Graphs and Machine Learning [7.928994572633366]
知識グラフとグラフ機械学習を利用したゲノム変異解析のための総合的なアプローチを提案する。
提案手法は、変異レベルの遺伝情報を抽出し、SnpEffを使用して付加メタデータでアノテートし、リッチなVariant Call FormatファイルをResource Description Frameworkのトリプルに変換する。
結果として得られる知識グラフは、患者のメタデータによってさらに強化され、グラフデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-30T14:56:10Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph [2.3143591448419074]
Vision Knowledge Graph (VisionKG)は、知識グラフとセマンティックWeb技術を介して視覚データセットを相互にリンクし、整理し、管理する新しいリソースである。
VisionKGには現在5億1900万のRDFトリプルがあり、約4000万のエンティティを記述している。
論文 参考訳(メタデータ) (2023-09-24T11:19:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。