Fugu-MT 論文翻訳(概要): Interactive Multi-Turn Retrieval for Health Videos

論文の概要: Interactive Multi-Turn Retrieval for Health Videos

arxiv url: http://arxiv.org/abs/2605.01409v1
Date: Sat, 02 May 2026 12:12:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.757172
Title: Interactive Multi-Turn Retrieval for Health Videos
Title（参考訳）: ヘルスビデオのための対話型マルチトゥルン検索
Authors: Chengzheng Wu, Ke Qiu, Baoming Zhang, Ruiyu Mao, Xulong Tang, Kaixing Yang,
Abstract要約: ヘルスビデオの対話型マルチターンセマンティック検索を導入し,MHVRC(Multi-Turn Health Video Retrieval Corpus)を構築した。本稿では,対話型2段階検索フレームワークDATRを提案する。 MHVRCの実験では、強いテキストビデオ検索ベースラインよりも一貫した利得を示している。
参考スコア（独自算出の注目度）: 8.02912741133541
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The growing availability of health-related instructional videos creates new opportunities for clinical training, patient rehabilitation, and health education, yet existing retrieval systems remain largely single-turn: a user submits one query and receives one ranked list. This interaction is brittle in health scenarios, where information needs are often vague at first and become clinically meaningful only after follow-up constraints such as posture, hand placement, contraindications, equipment, or patient condition are specified. We introduce interactive multi-turn semantic retrieval for health videos and construct MHVRC, a Multi-Turn Health Video Retrieval Corpus, by combining video-grounded descriptions from VideoChat-Flash with query refinements generated by DeepSeek. We further propose DATR, a Dialogue-Aware Two-Stage Retrieval framework. DATR first performs efficient coarse retrieval with a CLIP-style dual encoder and sparse frame sampling, then re-ranks the top candidates through multi-turn query fusion and a lightweight cross-encoder scoring module. Experiments on MHVRC show consistent gains over strong text-video retrieval baselines, while user studies indicate that refined multi-turn queries better capture fine-grained procedural semantics than single-turn annotations. The work establishes a benchmark and a scalable technical recipe for interactive health video retrieval.
Abstract（参考訳）: 健康関連指導ビデオが普及すると、臨床訓練、患者のリハビリテーション、健康教育の新しい機会が生まれるが、既存の検索システムは、主にシングルターンのままであり、ユーザーは1つのクエリを提出し、1つのランクリストを受け取る。この相互作用は、状態、手の位置、禁忌、機器、患者の状態といった後続の制約が特定された後にのみ、情報の必要性が曖昧で臨床的に意味を持つ健康シナリオにおいて脆弱である。ヘルスビデオの対話型マルチターンセマンティック検索を導入し,ビデオChat-Flashによるビデオグラウンド記述とDeepSeekが生成したクエリリファインメントを組み合わせることで,MHVRCを構築する。さらに,対話型2段階検索フレームワークDATRを提案する。 DATRは、まずCLIPスタイルのデュアルエンコーダとスパースフレームサンプリングを用いて効率的な粗い検索を行い、その後、マルチターンクエリ融合と軽量なクロスエンコーダスコアモジュールによって上位候補を再ランクする。 MHVRCの実験では、強いテキストビデオ検索ベースラインよりも一貫した向上が見られ、一方、ユーザによる調査では、洗練されたマルチターンクエリは、シングルターンアノテーションよりもきめ細かな手続き的セマンティクスをより正確に捉えることが示されている。この研究は、インタラクティブなヘルスビデオ検索のためのベンチマークとスケーラブルな技術レシピを確立している。

関連論文リスト

Scaling Video Pretraining for Surgical Foundation Models [51.92777479821822]
SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
論文参考訳（メタデータ） (2026-03-31T16:31:25Z)
RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。 RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文参考訳（メタデータ） (2026-02-02T18:40:37Z)
IVCR-200K: A Large-Scale Multi-turn Dialogue Benchmark for Interactive Video Corpus Retrieval [36.33423199468626]
対話型ビデオコーパス検索(IVCR)タスクは,ユーザと検索システム間のマルチターン,対話,現実的な対話を可能にする。 IVCR-200Kは高品質、バイリンガル、マルチターン、会話、抽象的なセマンティックデータセットであり、ビデオ検索やモーメント検索もサポートしている。本稿では,マルチモーダルな大規模言語モデル(MLLM)に基づく包括的フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-01T06:12:59Z)
Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric [1.9774761182870912]
本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
論文参考訳（メタデータ） (2025-04-06T18:18:09Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval [24.649068267308913]
ビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確な瞬間を検索できるようにする。本稿では,効率的なモーメントローカライゼーションとランキングのための新しいモデルを提案する。クローズドワールドTVエピソードのTVRと、オープンワールドのユーザ生成ビデオのDiDeMoの2つのデータセットについて研究する。
論文参考訳（メタデータ） (2021-09-21T08:07:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。