論文の概要: Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets
- arxiv url: http://arxiv.org/abs/2511.12255v1
- Date: Sat, 15 Nov 2025 15:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.775197
- Title: Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets
- Title(参考訳): Fusionista2.0:大規模データセットの効率検索システム
- Authors: Huy M. Le, Dat Tien Nguyen, Phuc Binh Nguyen, Gia-Bao Le-Tran, Phu Truong Thien, Cuong Dinh, Minh Nguyen, Nga Nguyen, Thuy T. N. Nguyen, Huy Gia Ngo, Tan Nhat Nguyen, Binh T. Nguyen, Monojit Choudhury,
- Abstract要約: Fusionista2.0は、スピードとユーザビリティに最適化されたビデオ検索システムである。
コアモジュールは効率向上のために再設計された。
光文字認識はVintern-1B-v3.5を用いて頑健な多言語テキスト認識を行う。
軽量な視覚言語モデルは、大型モデルの重いコストを伴わずに迅速な応答を提供する。
- 参考スコア(独自算出の注目度): 11.683842171407484
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Video Browser Showdown (VBS) challenges systems to deliver accurate results under strict time constraints. To meet this demand, we present Fusionista2.0, a streamlined video retrieval system optimized for speed and usability. All core modules were re-engineered for efficiency: preprocessing now relies on ffmpeg for fast keyframe extraction, optical character recognition uses Vintern-1B-v3.5 for robust multilingual text recognition, and automatic speech recognition employs faster-whisper for real-time transcription. For question answering, lightweight vision-language models provide quick responses without the heavy cost of large models. Beyond these technical upgrades, Fusionista2.0 introduces a redesigned user interface with improved responsiveness, accessibility, and workflow efficiency, enabling even non-expert users to retrieve relevant content rapidly. Evaluations demonstrate that retrieval time was reduced by up to 75% while accuracy and user satisfaction both increased, confirming Fusionista2.0 as a competitive and user-friendly system for large-scale video search.
- Abstract(参考訳): Video Browser Showdown (VBS)は、厳密な時間制約の下で正確な結果を提供するシステムに挑戦する。
この要求に応えるために,スピードとユーザビリティに最適化された映像検索システムFusionista2.0を提案する。
すべてのコアモジュールは効率向上のために再設計され、前処理は高速なキーフレーム抽出にfmpeg、光学文字認識は堅牢な多言語テキスト認識にVintern-1B-v3.5、自動音声認識はリアルタイムの転写に高速なWhisperを採用している。
疑問に答えるために、軽量な視覚言語モデルは、大きなモデルの重いコストを伴わずに迅速な応答を提供する。
これらの技術的アップグレード以外にも、Fusionista2.0では、応答性、アクセシビリティ、ワークフロー効率を改善した、再設計されたユーザインターフェースが導入されている。
評価の結果、検索時間は最大75%削減され、精度とユーザ満足度はともに向上し、大規模なビデオ検索のための競合的でユーザフレンドリなシステムであるFusionista2.0が確認された。
関連論文リスト
- LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference [49.84148668264725]
SparseVILAは効率的なVLM推論のための新しいパラダイムであり、前処理と復号の段階で視覚空間を疎結合する。
AWQ最適化推論パイプライン上に構築されたSparseVILAは、プリフィルの最大4.0倍、デコーディングの2.5倍、長文ビデオタスクの2.6倍のエンドツーエンド高速化を実現している。
論文 参考訳(メタデータ) (2025-10-20T17:35:47Z) - Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse [13.680753232748705]
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。
コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。
D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2025-06-17T01:59:10Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - VocalEyes: Enhancing Environmental Perception for the Visually Impaired through Vision-Language Models and Distance-Aware Object Detection [0.0]
本研究では,ユーザの環境を音声で記述し,状況認識を改善する革新的なリアルタイムシステムを提案する。
システムはライブビデオの入力を取得し、定量化および微調整されたFlorence-2ビッグモデルで処理する。
Parler TTS Miniは、軽量で適応可能なText-to-Speech(TTS)ソリューションで、効率的なオーディオフィードバックを提供する。
論文 参考訳(メタデータ) (2025-03-10T13:40:13Z) - LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant [49.541465732827504]
また,「Fast & Slow Video-Language Thinker」は,リアルタイム・能動的・時間的・文脈的・正確な応答を実現するオンネバイドアシスト「LION-FS」である。
論文 参考訳(メタデータ) (2025-03-05T16:52:34Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Evaluating Automatic Speech Recognition in an Incremental Setting [0.7734726150561086]
単語誤り率,レイテンシ,すでに認識されている単語に対する英語テストデータへの更新回数などの指標を用いて,6つの音声認識器を体系的に評価した。
一般的に、ローカルの認識器はより高速で、クラウドベースの認識器よりも少ない更新を必要とする。
論文 参考訳(メタデータ) (2023-02-23T14:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。