Fugu-MT 論文翻訳(概要): Unbiased Multimodal Reranking for Long-Tail Short-Video Search

論文の概要: Unbiased Multimodal Reranking for Long-Tail Short-Video Search

arxiv url: http://arxiv.org/abs/2603.24975v2
Date: Mon, 30 Mar 2026 13:37:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 13:48:18.817383
Title: Unbiased Multimodal Reranking for Long-Tail Short-Video Search
Title（参考訳）: 長距離ショートビデオ検索における非バイアス付きマルチモーダルリグレード
Authors: Wenyi Xu, Feiran Zhu, Songyang Li, Renzhe Zhou, Chao Zhang, Chenglei Dai, Yuren Mao, Yunjun Gao, Yi Zhang,
Abstract要約: ショートビデオ検索エンジンのKuaishouは、毎日何十億もの検索を提供している。わずかなユーザー行動データが、低品質のコンテンツを増幅するモデルを引き起こす。本稿では,実際のユーザ動作を伴わないユーザエクスペリエンスを推定するマルチモーダル・リグレード・フレームワークを提案する。
参考スコア（独自算出の注目度）: 22.623171690832887
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Kuaishou serving hundreds of millions of searches daily, the quality of short-video search is paramount. However, it suffers from a severe Matthew effect on long-tail queries: sparse user behavior data causes models to amplify low-quality content such as clickbait and shallow content. The recent advancements in Large Language Models (LLMs) offer a new paradigm, as their inherent world knowledge provides a powerful mechanism to assess content quality, agnostic to sparse user interactions. To this end, we propose a LLM-driven multimodal reranking framework, which estimates user experience without real user behavior. The approach involves a two-stage training process: the first stage uses multimodal evidence to construct high-quality annotations for supervised fine-tuning, while the second stage incorporates pairwise preference optimization to help the model learn partial orderings among candidates. At inference time, the resulting experience scores are used to promote high-quality but underexposed videos in reranking, and further guide page-level optimization through reinforcement learning. Experiments show that the proposed method achieves consistent improvements over strong baselines in offline metrics including AUC, NDCG@K, and human preference judgement. An online A/B test covering 15\% of traffic further demonstrates gains in both user experience and consumption metrics, confirming the practical value of the approach in long-tail video search scenarios.
Abstract（参考訳）: Kuaishouは毎日何億もの検索を提供しており、ショートビデオ検索の質が最重要である。しかし、これは長テールクエリに対するMatthewの深刻な影響に悩まされている。スパースユーザー行動データは、クリックベイトや浅いコンテンツといった低品質コンテンツをモデルに増幅させる。最近のLLM(Large Language Models)の進歩は、その固有の世界知識が、コンテンツの質を評価するための強力なメカニズムを提供するため、ユーザーインタラクションを疎結合にしないため、新しいパラダイムを提供する。そこで本研究では,実際のユーザ動作を伴わないユーザエクスペリエンスを推定するLLM駆動型マルチモーダルリグレードフレームワークを提案する。第1段階ではマルチモーダルなエビデンスを使用して教師付き微調整のための高品質なアノテーションを構築し、第2段階ではモデルが候補間の部分順序を学習するのに役立つペアワイズな選好最適化を導入する。推論時には、結果のエクスペリエンススコアを使用して、高品質だが過度に露出したビデオを再ランク付けし、強化学習を通じてページレベルの最適化をガイドする。実験の結果,提案手法は,AUC,NDCG@K,ヒトの嗜好判断などのオフライン指標において,強いベースラインよりも一貫した改善を実現することがわかった。 15倍のトラフィックをカバーするオンラインA/Bテストでは、ユーザエクスペリエンスと消費メトリクスの両方が向上し、ロングテールビデオ検索のシナリオにおけるアプローチの実用的価値を確認する。

関連論文リスト

SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search [6.248205896178263]
マルチタスクフュージョンは、異種予測信号を統一されたランキングスコアに集約することで、産業用短ビデオ検索システムにおいて重要な役割を担っている。既存のアプローチは、多くの場合、長期的なユーザの満足度と一致しない、即時エンゲージメントメトリクスを最適化する。本稿では,ショートビデオ検索におけるユーザの満足度を最適化する新しいフレームワークであるSaFROを提案する。
論文参考訳（メタデータ） (2026-03-20T02:57:50Z)
Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文参考訳（メタデータ） (2025-10-19T22:12:45Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [57.34255010956452]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。提案手法は,より多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-29T18:59:54Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LLM-based Weak Supervision Framework for Query Intent Classification in Video Search [6.519428288229856]
本稿では,大規模言語モデル(LLM)を弱監督によって活用し,大量のユーザ検索クエリを自動的にアノテートする手法を提案する。思考の連鎖(Chain of Thought)と文脈学習(In-Context Learning)を通じてドメイン知識を組み込むことによって、我々のアプローチはラベル付きデータを活用し、リアルタイム推論に最適化された低レイテンシモデルを訓練する。
論文参考訳（メタデータ） (2024-09-13T15:47:50Z)
LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
現代のメディア企業は、ユーザーにとって最も魅力的で魅力的なコンテンツを特定するために、自動化され効率的な方法を必要としている。本稿ではまず,3つの純LLM手法を用いて,最もキャッチラインを識別する能力について検討する。 LLM-Assisted Online Learning Algorithm (LOLA) は,Large Language Models (LLM) と適応実験を統合し,コンテンツ配信を最適化する新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-03T07:56:58Z)
vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。 vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文参考訳（メタデータ） (2022-01-23T22:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。