論文の概要: BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance
- arxiv url: http://arxiv.org/abs/2506.03589v2
- Date: Mon, 09 Jun 2025 04:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.129364
- Title: BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance
- Title(参考訳): BiMa:Scene Element Guidanceによるテキストビデオ検索のバイアス軽減を目指す
- Authors: Huy Le, Nhat Chung, Tung Kieu, Anh Nguyen, Ngan Le,
- Abstract要約: BiMaは、視覚的およびテキスト的表現のバイアスを軽減するために設計された新しいフレームワークである。
視覚障害者には、これらのシーン要素をビデオ埋め込みに統合し、きめ細かな細部と細部を強調できるようにします。
テキストの偏りを解消するために,テキスト特徴をコンテンツやバイアス成分に分解する機構を導入し,意味のあるコンテンツに集中できるようにする。
- 参考スコア(独自算出の注目度): 10.268638578607977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval (TVR) systems often suffer from visual-linguistic biases present in datasets, which cause pre-trained vision-language models to overlook key details. To address this, we propose BiMa, a novel framework designed to mitigate biases in both visual and textual representations. Our approach begins by generating scene elements that characterize each video by identifying relevant entities/objects and activities. For visual debiasing, we integrate these scene elements into the video embeddings, enhancing them to emphasize fine-grained and salient details. For textual debiasing, we introduce a mechanism to disentangle text features into content and bias components, enabling the model to focus on meaningful content while separately handling biased information. Extensive experiments and ablation studies across five major TVR benchmarks (i.e., MSR-VTT, MSVD, LSMDC, ActivityNet, and DiDeMo) demonstrate the competitive performance of BiMa. Additionally, the model's bias mitigation capability is consistently validated by its strong results on out-of-distribution retrieval tasks.
- Abstract(参考訳): テキストビデオ検索(TVR)システムは、しばしばデータセットに存在する視覚言語バイアスに悩まされ、事前学習された視覚言語モデルが重要な詳細を見落としてしまう。
そこで本稿では,視覚的およびテキスト的表現のバイアスを軽減するための新しいフレームワークであるBiMaを提案する。
私たちのアプローチは、関連エンティティやオブジェクト、アクティビティを識別することで、各動画を特徴付けるシーン要素を生成することから始まります。
視覚障害者には、これらのシーン要素をビデオ埋め込みに統合し、きめ細かな細部と細部を強調できるようにします。
テキストの偏りを解消するために,テキストの特徴をコンテンツやバイアス成分に分解する機構を導入し,バイアス情報を別々に処理しながら意味のある内容に集中できるようにする。
5つの主要なTVRベンチマーク(MSR-VTT, MSVD, LSMDC, ActivityNet, DiDeMo)の大規模な実験とアブレーション研究は、BiMaの競争性能を実証している。
さらに、モデルのバイアス軽減能力は、アウト・オブ・ディストリビューション検索タスクの強い結果によって一貫して検証される。
関連論文リスト
- VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。