論文の概要: SweeperBot: Making 3D Browsing Accessible through View Analysis and Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.14567v1
- Date: Tue, 18 Nov 2025 15:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.173976
- Title: SweeperBot: Making 3D Browsing Accessible through View Analysis and Visual Question Answering
- Title(参考訳): SweeperBot:ビュー分析とビジュアル質問応答による3Dブラウザのアクセシブル化
- Authors: Chen Chen, Cuong Nguyen, Alexa Siu, Dingzeyu Li, Nadir Weibel,
- Abstract要約: SweeperBotは、Screen Reader(SR)ユーザーが視覚的質問応答を利用して3Dモデルを調べて比較することを可能にするシステムである。
SR経験を持つ10 Blind and Low-Vision (BLV)ユーザによる専門家レビューでは、SweeperBotの使用の可能性が示された。
SweeperBotによる説明の質は、30人の目撃者による第2回調査によって検証された。
- 参考スコア(独自算出の注目度): 14.532475016224089
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accessing 3D models remains challenging for Screen Reader (SR) users. While some existing 3D viewers allow creators to provide alternative text, they often lack sufficient detail about the 3D models. Grounded on a formative study, this paper introduces SweeperBot, a system that enables SR users to leverage visual question answering to explore and compare 3D models. SweeperBot answers SR users' visual questions by combining an optimal view selection technique with the strength of generative- and recognition-based foundation models. An expert review with 10 Blind and Low-Vision (BLV) users with SR experience demonstrated the feasibility of using SweeperBot to assist BLV users in exploring and comparing 3D models. The quality of the descriptions generated by SweeperBot was validated by a second survey study with 30 sighted participants.
- Abstract(参考訳): 3Dモデルへのアクセスは、Screen Reader(SR)ユーザにとって依然として困難である。
既存の3Dビューアでは、クリエイターが代替テキストを提供することができるが、3Dモデルに関する十分な詳細を欠いていることが多い。
スウィーパーボット(SweeeperBot)は,SRユーザが視覚的質問応答を利用して3Dモデルを探索・比較できるシステムである。
SweeperBotは、最適なビュー選択手法と生成および認識に基づく基礎モデルの強みを組み合わせることで、SRユーザの視覚的疑問に答える。
SR経験を持つ10人のBlind and Low-Vision(BLV)ユーザによる専門家レビューでは、3Dモデルの探索と比較において、SweeperBotを使用してBLVユーザを支援する可能性を示している。
SweeperBotによる説明の質は、30人の目撃者による第2回調査によって検証された。
関連論文リスト
- Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - 3D Question Answering via only 2D Vision-Language Models [87.41421075243103]
大規模視覚言語モデル(LVLM)は、多くの分野を進歩させた。
代表的な例として,3次元質問応答(3D-QA)を用いた3次元シーン理解タスクの活用について検討する。
具体的には、3Dポイントクラウドから2Dビューをサンプリングし、2Dモデルにフィードして、与えられた質問に答える。
我々は3D-QAのための重要かつ多様なビューを自動的に選択する新しいアプローチであるcdViewsを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:04:39Z) - Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。
Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-04-02T16:59:55Z) - SplatTalk: 3D VQA with Gaussian Splatting [13.211810095081159]
言語誘導型3Dシーン理解は、ロボット工学、AR/VR、人間とコンピュータの相互作用における応用を進める上で重要である。
SplatTalkは,3次元ガウススティング(3DGS)フレームワークを用いて,事前学習したLSMへの直接入力に適した3次元トークンを生成する手法である。
論文 参考訳(メタデータ) (2025-03-08T16:31:48Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head
Reenactment [17.372274738231443]
そこで本研究では,ソースの出現とドライバ表現のための,完全に神経の絡み合ったフレームワークをベースとした3D認識型ワンショットヘッド再現手法を提案する。
提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。
論文 参考訳(メタデータ) (2023-12-07T19:19:57Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Towards 3D VR-Sketch to 3D Shape Retrieval [128.47604316459905]
入力モダリティとしての3Dスケッチの利用について検討し、検索を行うVRシナリオを提唱する。
この新しい3DVR-Sketchから3D形状の検索問題に対する最初のスタンプとして、私たちは4つのコントリビューションを行います。
論文 参考訳(メタデータ) (2022-09-20T22:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。