Fugu-MT 論文翻訳(概要): Zero-shot Audio Topic Reranking using Large Language Models

論文の概要: Zero-shot Audio Topic Reranking using Large Language Models

arxiv url: http://arxiv.org/abs/2309.07606v1
Date: Thu, 14 Sep 2023 11:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 15:17:10.360315
Title: Zero-shot Audio Topic Reranking using Large Language Models
Title（参考訳）: 大型言語モデルを用いたゼロショット音声トピックの再評価
Authors: Mengjie Qian, Rao Ma, Adian Liusie, Erfan Loweimi, Kate M. Knill, Mark J.F. Gales
Abstract要約: The Multimodal Video Search by Examples project investigateds using video clips as the query term for information search。本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 45.3240272898503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Multimodal Video Search by Examples (MVSE) project investigates using video clips as the query term for information retrieval, rather than the more traditional text query. This enables far richer search modalities such as images, speaker, content, topic, and emotion. A key element for this process is highly rapid, flexible, search to support large archives, which in MVSE is facilitated by representing video attributes by embeddings. This work aims to mitigate any performance loss from this rapid archive search by examining reranking approaches. In particular, zero-shot reranking methods using large language models are investigated as these are applicable to any video archive audio content. Performance is evaluated for topic-based retrieval on a publicly available video archive, the BBC Rewind corpus. Results demonstrate that reranking can achieve improved retrieval ranking without the need for any task-specific training data.
Abstract（参考訳）: MVSE(Multimodal Video Search by Examples)プロジェクトは、従来のテキストクエリではなく、情報検索のクエリ語としてビデオクリップを使用することを調査する。これにより、画像、話者、コンテンツ、トピック、感情など、はるかにリッチな検索モードが可能になる。このプロセスの鍵となる要素は、非常に高速で柔軟で、大規模なアーカイブをサポートするための検索である。本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。特に,ビデオアーカイブのオーディオコンテンツに適用できるため,大規模言語モデルを用いたゼロショット復位手法について検討した。パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。その結果,タスク固有のトレーニングデータを必要とせず,検索ランキングの改善が期待できることがわかった。

関連論文リスト

VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。 VideoRAGは近年のLVLM(Large Video Language Models)を利用している。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-10T11:17:15Z)
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。 218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文参考訳（メタデータ） (2024-10-15T13:56:34Z)
Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文参考訳（メタデータ） (2024-10-14T04:57:32Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文参考訳（メタデータ） (2023-02-24T10:14:35Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。