論文の概要: Reducing the Vision and Language Bias for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2207.13457v1
- Date: Wed, 27 Jul 2022 11:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:43:24.707289
- Title: Reducing the Vision and Language Bias for Temporal Sentence Grounding
- Title(参考訳): 時間文接地における視覚と言語バイアスの低減
- Authors: Daizong Liu, Xiaoye Qu, Wei Hu
- Abstract要約: 本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。
3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
- 参考スコア(独自算出の注目度): 22.571577672704716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) is an important yet challenging task in
multimedia information retrieval. Although previous TSG methods have achieved
decent performance, they tend to capture the selection biases of frequently
appeared video-query pairs in the dataset rather than present robust multimodal
reasoning abilities, especially for the rarely appeared pairs. In this paper,
we study the above issue of selection biases and accordingly propose a
Debiasing-TSG (D-TSG) model to filter and remove the negative biases in both
vision and language modalities for enhancing the model generalization ability.
Specifically, we propose to alleviate the issue from two perspectives: 1)
Feature distillation. We built a multi-modal debiasing branch to firstly
capture the vision and language biases, and then apply a bias identification
module to explicitly recognize the true negative biases and remove them from
the benign multi-modal representations. 2) Contrastive sample generation. We
construct two types of negative samples to enforce the model to accurately
learn the aligned multi-modal semantics and make complete semantic reasoning.
We apply the proposed model to both commonly and rarely appeared TSG cases, and
demonstrate its effectiveness by achieving the state-of-the-art performance on
three benchmark datasets (ActivityNet Caption, TACoS, and Charades-STA).
- Abstract(参考訳): 時間文グラウンドティング(TSG)はマルチメディア情報検索において重要な課題である。
従来のtsg手法は良好な性能を発揮してきたが、ロバストなマルチモーダル推論能力、特に稀に現れるペアではなく、データセット内で頻繁に出現するビデオクエリペアの選択バイアスをキャプチャする傾向がある。
本稿では, 選択バイアスの問題を考察し, モデル一般化能力を高めるために, 視覚・言語両モードの負のバイアスをフィルタリング・除去するデバイアスング・TSGモデルを提案する。
具体的には,この問題を2つの視点から解決することを提案する。
1)特徴蒸留
まずビジョンと言語のバイアスを捉え、次にバイアス識別モジュールを適用して、真負のバイアスを明示的に認識し、良質なマルチモーダル表現からそれらを取り除く。
2)対照的なサンプル生成。
我々は2種類の否定的サンプルを構築し、モデルが調整されたマルチモーダルセマンティクスを正確に学習し、完全なセマンティクス推論を行うよう強制する。
提案手法をTSGのケースに応用し、3つのベンチマークデータセット(ActivityNet Caption, TACoS, Charades-STA)上で最先端の性能を達成し、その効果を実証する。
関連論文リスト
- Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary [8.24274551090375]
本稿では,任意のテキスト・トゥ・イメージ(T2I)モデルにおけるバイアスに対する新奇で普遍的なデバイアスフレームワークであるVersusDebiasを紹介する。
自己適応モジュールは、プロセス後の幻覚と複数の属性を同時にデバイアスする特別な属性配列を生成する。
ゼロショットと少数ショットの両方のシナリオでは、VersusDebiasは既存のメソッドよりも優れており、例外的なユーティリティを示している。
論文 参考訳(メタデータ) (2024-07-28T16:24:07Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - General Debiasing for Multimodal Sentiment Analysis [47.05329012210878]
本稿では,MSAモデルのOF(Out-Of-Distribution)一般化能力を高めることを目的とした,MSAタスクの一般化を提案する。
我々はIPWを用いて、大きなバイアスのあるサンプルの効果を低減し、感情予測のための堅牢な特徴学習を容易にする。
実験結果は,提案フレームワークのより優れた一般化能力を示すものである。
論文 参考訳(メタデータ) (2023-07-20T00:36:41Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。