論文の概要: DMC$^3$: Dual-Modal Counterfactual Contrastive Construction for Egocentric Video Question Answering
- arxiv url: http://arxiv.org/abs/2510.20285v1
- Date: Thu, 23 Oct 2025 07:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.520945
- Title: DMC$^3$: Dual-Modal Counterfactual Contrastive Construction for Egocentric Video Question Answering
- Title(参考訳): DMC$^3$:Egocentric Video Question Answeringのためのデュアルモーダルコントラファクトコントラスト構築
- Authors: Jiayi Zou, Chaofan Chen, Bing-Kun Bao, Changsheng Xu,
- Abstract要約: エゴセントリックビデオ質問回答(エゴセントリックビデオQA)は、エゴセントリックビデオ理解において重要な役割を果たす。
本稿では,エゴセントリックなビデオカベースライン,反ファクトなサンプル構築モジュール,反ファクトなサンプル関連コントラスト最適化を含むデュアルモーダルなコントラスト構築フレームワークを提案する。
本手法は,EgoTaskQAのテキスト正規分とテキスト間接分を52.51%,46.04%,QAEGO4Dを13.2%とする。
- 参考スコア(独自算出の注目度): 66.45476128172444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric Video Question Answering (Egocentric VideoQA) plays an important role in egocentric video understanding, which refers to answering questions based on first-person videos. Although existing methods have made progress through the paradigm of pre-training and fine-tuning, they ignore the unique challenges posed by the first-person perspective, such as understanding multiple events and recognizing hand-object interactions. To deal with these challenges, we propose a Dual-Modal Counterfactual Contrastive Construction (DMC$^3$) framework, which contains an egocentric videoqa baseline, a counterfactual sample construction module and a counterfactual sample-involved contrastive optimization. Specifically, We first develop a counterfactual sample construction module to generate positive and negative samples for textual and visual modalities through event description paraphrasing and core interaction mining, respectively. Then, We feed these samples together with the original samples into the baseline. Finally, in the counterfactual sample-involved contrastive optimization module, we apply contrastive loss to minimize the distance between the original sample features and the positive sample features, while maximizing the distance from the negative samples. Experiments show that our method achieve 52.51\% and 46.04\% on the \textit{normal} and \textit{indirect} splits of EgoTaskQA, and 13.2\% on QAEGO4D, both reaching the state-of-the-art performance.
- Abstract(参考訳): Egocentric Video Question Answering (Egocentric VideoQA)は、egocentric Videoの理解において重要な役割を担っている。
既存の手法は事前学習や微調整のパラダイムを通じて進歩してきたが、複数の事象の理解や手動物体の相互作用の認識など、個人的視点による独特な課題は無視されている。
これらの課題に対処するため,エゴセントリックなビデオカベースライン,反ファクト的なサンプル構築モジュール,反ファクト的なサンプル関連コントラスト最適化を含むDMC$^3$(Dual-Modal Counterfactual Contrastive Construction)フレームワークを提案する。
具体的には、まず、イベント記述パラフレージングとコア相互作用マイニングによって、テキストと視覚のモダリティに対する正と負のサンプルを生成する、反ファクトなサンプル構築モジュールを開発する。
次に、これらのサンプルと元のサンプルをベースラインに供給します。
最後に, 正のサンプル特徴と正のサンプル特徴との距離を最小化するとともに, 負のサンプルからの距離を最大化する。
実験の結果,EgoTaskQA の \textit{normal} と \textit{indirect} の分割で 52.51\% と 46.04\% を達成し,QAEGO4D では 13.2\% を達成できた。
関連論文リスト
- Beyond Isolated Facts: Synthesizing Narrative and Grounded Supervision for VideoQA [37.679936989592996]
よりリッチな監視信号を合成するためのフレームワークを導入する。
質問ベースパラフレーズ(QBP)と質問ベースキャプション(QBC)の2つの補完戦略を提案する。
論文 参考訳(メタデータ) (2025-09-29T08:28:44Z) - Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining [64.25904019001449]
WSTSGの課題は、ビデオレベルのビデオ言語対応のみで、未編集ビデオから言語記述に対応する時間間隔を検出することである。
アンカーサンプルの場合、既存のほとんどのアプローチは、対照的な学習のために、他のビデオまたは同じビデオから負のサンプルを生成する。
我々は,より差別的な監視を提供するために,トレーニングセットから正のサンプルをマイニングする新しいフレームワークである正のサンプルマイニング(PSM)を提案する。
論文 参考訳(メタデータ) (2025-05-10T08:03:00Z) - Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Consensus Synergizes with Memory: A Simple Approach for Anomaly
Segmentation in Urban Scenes [132.16748656557013]
異常セグメンテーション(Anomaly segmentation)は、都市部における自律運転のような安全クリティカルなアプリケーションにとって重要な課題である。
本稿では,この課題に対処するため,Consensus Synergizes with Memory (CosMe) という新しいシンプルなアプローチを提案する。
いくつかの都市景観異常セグメンテーションデータセットの実験結果から、CosMeは従来のアプローチよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T10:01:20Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z) - Neural Passage Retrieval with Improved Negative Contrast [21.415627458949356]
我々は、通常、二重エンコーダモデルの訓練に使用される正のランダムサンプリングを補完する4つの負のサンプリング戦略を探求する。
検索に基づく戦略は,意味的類似性と質問文と文節間の語彙的重複に基づく。
その結果、オープンドメインの質問応答データセットの2つに対して、最先端のパフォーマンスの新たなレベルを確立した。
論文 参考訳(メタデータ) (2020-10-23T16:45:06Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。