論文の概要: Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization
- arxiv url: http://arxiv.org/abs/2507.15504v2
- Date: Thu, 24 Jul 2025 10:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.846771
- Title: Quantifying and Narrowing the Unknown: Interactive Text-to-Video Retrieval via Uncertainty Minimization
- Title(参考訳): 不確実性最小化による対話型テキスト・ビデオ検索
- Authors: Bingqing Zhang, Zhuo Cao, Heming Du, Yang Li, Xue Li, Jiajun Liu, Sen Wang,
- Abstract要約: UMIVRは、Uncertainty-Minimizing Interactive Text-to-Video Retrievalフレームワークである。
3つの重要な不確実性(テキストの曖昧さ、マッピングの不確実性、フレームの不確実性)を、原則付き、トレーニング不要なメトリクスによって定量化する。
ユーザークエリを反復的に洗練し、検索のあいまいさを著しく低減します。
- 参考スコア(独自算出の注目度): 17.763377515783155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances, Text-to-video retrieval (TVR) is still hindered by multiple inherent uncertainties, such as ambiguous textual queries, indistinct text-video mappings, and low-quality video frames. Although interactive systems have emerged to address these challenges by refining user intent through clarifying questions, current methods typically rely on heuristic or ad-hoc strategies without explicitly quantifying these uncertainties, limiting their effectiveness. Motivated by this gap, we propose UMIVR, an Uncertainty-Minimizing Interactive Text-to-Video Retrieval framework that explicitly quantifies three critical uncertainties-text ambiguity, mapping uncertainty, and frame uncertainty-via principled, training-free metrics: semantic entropy-based Text Ambiguity Score (TAS), Jensen-Shannon divergence-based Mapping Uncertainty Score (MUS), and a Temporal Quality-based Frame Sampler (TQFS). By adaptively generating targeted clarifying questions guided by these uncertainty measures, UMIVR iteratively refines user queries, significantly reducing retrieval ambiguity. Extensive experiments on multiple benchmarks validate UMIVR's effectiveness, achieving notable gains in Recall@1 (69.2\% after 10 interactive rounds) on the MSR-VTT-1k dataset, thereby establishing an uncertainty-minimizing foundation for interactive TVR.
- Abstract(参考訳): 近年の進歩にもかかわらず、テキスト・ツー・ビデオ検索(TVR)は、あいまいなテキスト・クエリ、不明瞭なテキスト・ビデオ・マッピング、低品質なビデオ・フレームなど、複数の不確実性によって依然として妨げられている。
対話型システムは、ユーザの意図を明確にすることで、これらの課題に対処するようになっているが、現在の手法は通常、これらの不確実性を明示的に定量化せずにヒューリスティックまたはアドホックな戦略に依存し、その有効性を制限している。
このギャップによって動機づけられたUMIVRは、テキストの曖昧さ、マッピングの不確実性、フレームの不確実性といった3つの重要な不確実性を明確に評価する、UMIVR、セマンティックエントロピーベースのテキストアンビグニティスコア(TAS)、ジェンセン=シャノンの発散に基づくマッピング不確実性スコア(MUS)、テンポラル品質ベースのフレームサンプリング(TQFS)を提案する。
UMIVRは、これらの不確実性対策によって導かれる対象の明確な質問を適応的に生成することにより、ユーザクエリを反復的に洗練し、検索のあいまいさを著しく低減する。
複数のベンチマークによる大規模な実験により、MSR-VTT-1kデータセット上のRecall@1(10回のインタラクティブラウンドの後69.2\%)において、UMIVRの有効性が著しく向上し、インタラクティブTVRのための不確実性最小化基盤が確立された。
関連論文リスト
- SUGAR: Leveraging Contextual Confidence for Smarter Retrieval [28.552283701883766]
セマンティック不確実性誘導適応検索(SUGAR)について紹介する。
我々は、文脈に基づくエントロピーを利用して、検索するかどうかを積極的に決定し、シングルステップとマルチステップの検索を更に決定する。
実験の結果,意味的不確実性推定によって導かれる選択探索により,多様な質問応答タスクのパフォーマンスが向上し,より効率的な推論が達成された。
論文 参考訳(メタデータ) (2025-01-09T01:24:59Z) - RACQUET: Unveiling the Dangers of Overlooked Referential Ambiguity in Visual LLMs [29.832360523402592]
本稿では,画像に基づく質問応答におけるあいまいさの異なる側面を対象とするデータセットであるRACQUETを紹介する。
我々は、その応答のあいまいさに対処する上で、最先端の大規模マルチモーダル言語モデルの過信に関する重大な制限と問題を明らかにする。
本結果は, 望ましくないステレオタイプに頼らずに不確実性に対処する頑健な戦略を持つモデルの導入の緊急性を強調した。
論文 参考訳(メタデータ) (2024-12-18T13:25:11Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文 参考訳(メタデータ) (2024-05-22T16:55:31Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。
ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文 参考訳(メタデータ) (2024-02-11T05:17:56Z) - Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Uncertain Facial Expression Recognition via Multi-task Assisted
Correction [43.02119884581332]
MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正法を提案する。
具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。
RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成および実際の不確実性に直面した際のベースラインよりも大幅に改善されていることを示した。
論文 参考訳(メタデータ) (2022-12-14T10:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。