論文の概要: ReXSonoVQA: A Video QA Benchmark for Procedure-Centric Ultrasound Understanding
- arxiv url: http://arxiv.org/abs/2604.10916v2
- Date: Tue, 14 Apr 2026 16:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.416777
- Title: ReXSonoVQA: A Video QA Benchmark for Procedure-Centric Ultrasound Understanding
- Title(参考訳): ReXSonoVQA: 手順中心超音波理解のためのビデオQAベンチマーク
- Authors: Xucheng Wang, Xiaoman Zhang, Sung Eun Kim, Ankit Pal, Pranav Rajpurkar,
- Abstract要約: 視覚言語モデル(VLM)は自律型超音波システムを可能にする。
既存のベンチマークでは静的画像のみを評価しており、動的手続き的理解ではない。
514の動画クリップと514の質問を備えたビデオQAベンチマークであるReXSonoVQAを紹介する。
- 参考スコア(独自算出の注目度): 8.682236137540738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultrasound acquisition requires skilled probe manipulation and real-time adjustments. Vision-language models (VLMs) could enable autonomous ultrasound systems, but existing benchmarks evaluate only static images, not dynamic procedural understanding. We introduce ReXSonoVQA, a video QA benchmark with 514 video clips and 514 questions (249 MCQ, 265 free-response) targeting three competencies: Action-Goal Reasoning, Artifact Resolution & Optimization, and Procedure Context & Planning. Zero-shot evaluation of Gemini 3 Pro, Qwen3.5-397B, LLaVA-Video-72B, and Seed 2.0 Pro shows VLMs can extract some procedural information, but troubleshooting questions remain challenging with minimal gains over text-only baselines, exposing limitations in causal reasoning. ReXSonoVQA enables developing perception systems for ultrasound training, guidance, and robotic automation.
- Abstract(参考訳): 超音波取得には、熟練したプローブ操作とリアルタイム調整が必要である。
視覚言語モデル(VLM)は自律型超音波システムを実現することができるが、既存のベンチマークでは静的画像のみを評価しており、動的手続き的理解ではない。
ReXSonoVQAは514の動画クリップと514の質問(249のMCQ、265の無料応答)を備えたビデオQAベンチマークであり、アクション目標推論、アーティファクト解決と最適化、手続きコンテキストと計画の3つの能力をターゲットにしている。
Gemini 3 Pro、Qwen3.5-397B、LLaVA-Video-72B、Seed 2.0 Proのゼロショット評価では、VLMは手続き的な情報を抽出できるが、トラブルシューティングの問題はテキストのみのベースラインよりも最小限のゲインで難題であり、因果推論の制限が露呈されている。
ReXSonoVQAは超音波訓練、誘導、ロボット自動化のための知覚システムの開発を可能にする。
関連論文リスト
- Optimizing Multimodal LLMs for Egocentric Video Understanding: A Solution for the HD-EPIC VQA Challenge [52.31833115696867]
本稿では,クエリ/選択前処理,ドメイン固有のQwen2.5-VL微調整,マルチステップ推論の促進を目的とした新しいT-CoTを提案する。
このシステムはHD-EPIC VQAで41.6%の精度を実現し、ビデオ理解の要求に対して全体的パイプライン最適化の必要性を強調した。
論文 参考訳(メタデータ) (2026-01-15T09:43:49Z) - SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding [11.424693319143715]
外科領域におけるビデオ質問応答 (Video Question Answering, VideoQA) は, 時間的に整合した事象をAIモデルで推論することで, 術中理解を高めることを目的としている。
静的画像から動的手術シーンへの視覚的推論を拡張するモデルであるSurgViVQAを提案する。
Masked Video-Textを使ってビデオと質問機能を融合し、モーションやツール間のインタラクションなどの時間的手がかりをキャプチャする。
論文 参考訳(メタデータ) (2025-11-05T09:40:16Z) - CyberV: Cybernetics for Test-time Scaling in Video Understanding [46.693118184157626]
現在のMLLM(Multimodal Large Language Models)は、長いビデオや複雑なビデオを理解するのに苦労する可能性がある。
本稿では,ビデオMLLMを適応システムとして再設計する,サイバネティックな原理にインスパイアされた新しいフレームワークを提案する。
当社のアプローチであるCyberVでは,MLLM推論システム,センサ,コントローラで構成されるサイバネティックループを導入している。
論文 参考訳(メタデータ) (2025-06-09T17:45:18Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。