論文の概要: Zero-shot Audio Topic Reranking using Large Language Models
- arxiv url: http://arxiv.org/abs/2309.07606v1
- Date: Thu, 14 Sep 2023 11:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:17:10.360315
- Title: Zero-shot Audio Topic Reranking using Large Language Models
- Title(参考訳): 大型言語モデルを用いたゼロショット音声トピックの再評価
- Authors: Mengjie Qian, Rao Ma, Adian Liusie, Erfan Loweimi, Kate M. Knill, Mark
J.F. Gales
- Abstract要約: The Multimodal Video Search by Examples project investigateds using video clips as the query term for information search。
本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 45.3240272898503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multimodal Video Search by Examples (MVSE) project investigates using
video clips as the query term for information retrieval, rather than the more
traditional text query. This enables far richer search modalities such as
images, speaker, content, topic, and emotion. A key element for this process is
highly rapid, flexible, search to support large archives, which in MVSE is
facilitated by representing video attributes by embeddings. This work aims to
mitigate any performance loss from this rapid archive search by examining
reranking approaches. In particular, zero-shot reranking methods using large
language models are investigated as these are applicable to any video archive
audio content. Performance is evaluated for topic-based retrieval on a publicly
available video archive, the BBC Rewind corpus. Results demonstrate that
reranking can achieve improved retrieval ranking without the need for any
task-specific training data.
- Abstract(参考訳): MVSE(Multimodal Video Search by Examples)プロジェクトは、従来のテキストクエリではなく、情報検索のクエリ語としてビデオクリップを使用することを調査する。
これにより、画像、話者、コンテンツ、トピック、感情など、はるかにリッチな検索モードが可能になる。
このプロセスの鍵となる要素は、非常に高速で柔軟で、大規模なアーカイブをサポートするための検索である。
本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。
特に,ビデオアーカイブのオーディオコンテンツに適用できるため,大規模言語モデルを用いたゼロショット復位手法について検討した。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
その結果,タスク固有のトレーニングデータを必要とせず,検索ランキングの改善が期待できることがわかった。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。