論文の概要: Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
- arxiv url: http://arxiv.org/abs/2503.13369v1
- Date: Mon, 17 Mar 2025 16:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:12.613785
- Title: Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions
- Title(参考訳): Sightation Counts: BLV対応のダイアグラム記述データセット構築における注目ユーザフィードバックの活用
- Authors: Wan Ju Kang, Eunki Kim, Na Min An, Sangryul Kim, Haemin Choi, Ki Hoon Kwak, James Thorne,
- Abstract要約: 視覚言語モデル(VLM)が生み出す図形記述(ダイアグラム記述)を評価することを求める。
Sightationは、5kのダイアグラムと137kのサンプルからなるダイアグラム記述データセットのコレクションで、完成、選好、検索、質問応答、推論トレーニングの目的でリリースします。
- 参考スコア(独自算出の注目度): 5.6629291915019975
- License:
- Abstract: Often, the needs and visual abilities differ between the annotator group and the end user group. Generating detailed diagram descriptions for blind and low-vision (BLV) users is one such challenging domain. Sighted annotators could describe visuals with ease, but existing studies have shown that direct generations by them are costly, bias-prone, and somewhat lacking by BLV standards. In this study, we ask sighted individuals to assess -- rather than produce -- diagram descriptions generated by vision-language models (VLM) that have been guided with latent supervision via a multi-pass inference. The sighted assessments prove effective and useful to professional educators who are themselves BLV and teach visually impaired learners. We release Sightation, a collection of diagram description datasets spanning 5k diagrams and 137k samples for completion, preference, retrieval, question answering, and reasoning training purposes and demonstrate their fine-tuning potential in various downstream tasks.
- Abstract(参考訳): 多くの場合、アノテータグループとエンドユーザグループでは、ニーズと視覚能力が異なります。
ブラインドとロービジョン(BLV)ユーザのための詳細なダイアグラム記述を生成することは、このような困難なドメインのひとつです。
目に見えるアノテータは視覚を簡単に記述できるが、既存の研究では、それらによる直接世代はコストが高く、バイアスがかかり、BLV標準に欠けていることが示されている。
本研究では,視覚言語モデル (VLM) が生成する図形記述を,マルチパス推論を用いて,潜時的な監督によって導いたものであるとして,視覚障害者に評価を依頼する。
視力評価は、BLVであり、視覚障害のある学習者を教えるプロの教育者にとって効果的で有益であることが証明された。
Sightationは、5kのダイアグラムと137kのサンプルからなるダイアグラム記述データセットのコレクションで、コンプリート、好み、検索、質問応答、推論のトレーニング目的をカバーし、さまざまな下流タスクでそれらの微調整の可能性を示す。
関連論文リスト
- Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information [9.420776624656144]
我々は、LVLM(Large Vision Language Models)の視覚知覚能力を評価する新しいデータセットVisOnlyQAを紹介する。
我々のデータセットは、推論などの他の機能に依存しない、きめ細かい視覚情報のために、LVLMの視覚的知覚を解析することを可能にする。
論文 参考訳(メタデータ) (2024-12-01T19:46:22Z) - Generating Contextually-Relevant Navigation Instructions for Blind and Low Vision People [9.503205949175966]
不慣れな環境をナビゲートすることは、盲目と低視(BLV)の個人にとって大きな課題となる。
キッチンを探索したり、屋外でナビゲートしたりするなど、さまざまなシナリオで画像と目標のデータセットを構築します。
論文 参考訳(メタデータ) (2024-07-11T06:40:36Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.2650734930974]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。
本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文 参考訳(メタデータ) (2022-08-24T04:26:21Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。