論文の概要: Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2109.06400v1
- Date: Tue, 14 Sep 2021 02:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:55:18.776274
- Title: Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding
- Title(参考訳): tentendの進化的ガイド: 時間文接地のための反復的アライメントフレームワーク
- Authors: Daizong Liu, Xiaoye Qu, Pan Zhou
- Abstract要約: 時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
- 参考スコア(独自算出の注目度): 53.377028000325424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key solution to temporal sentence grounding (TSG) exists in how to learn
effective alignment between vision and language features extracted from an
untrimmed video and a sentence description. Existing methods mainly leverage
vanilla soft attention to perform the alignment in a single-step process.
However, such single-step attention is insufficient in practice, since
complicated relations between inter- and intra-modality are usually obtained
through multi-step reasoning. In this paper, we propose an Iterative Alignment
Network (IA-Net) for TSG task, which iteratively interacts inter- and
intra-modal features within multiple steps for more accurate grounding.
Specifically, during the iterative reasoning process, we pad multi-modal
features with learnable parameters to alleviate the nowhere-to-attend problem
of non-matched frame-word pairs, and enhance the basic co-attention mechanism
in a parallel manner. To further calibrate the misaligned attention caused by
each reasoning step, we also devise a calibration module following each
attention module to refine the alignment knowledge. With such iterative
alignment scheme, our IA-Net can robustly capture the fine-grained relations
between vision and language domains step-by-step for progressively reasoning
the temporal boundaries. Extensive experiments conducted on three challenging
benchmarks demonstrate that our proposed model performs better than the
state-of-the-arts.
- Abstract(参考訳): tsg(temporal sentence grounding)に対する重要な解決策は、未編集ビデオと文記述から抽出された視覚と言語特徴の効果的なアライメントを学習する方法である。
既存の手法は主にバニラ軟化を利用して単一工程でアライメントを行う。
しかし,多段階推論によってモダリティとモダリティ間の複雑な関係が得られるため,そのような単段注意は実際には不十分である。
本稿では,TSGタスクのための反復アライメントネットワーク(IA-Net)を提案する。
具体的には, 反復的推論過程において, 学習可能なパラメータを持つマルチモーダル特徴をパットし, 非マッチングフレームワードペアのどこにも到達しない問題を軽減するとともに, 基本コアテンション機構を並列に拡張する。
また、各推論ステップによって生じる不一致注意をさらに校正するため、各注意モジュールに追従する校正モジュールを考案し、アライメント知識を洗練する。
このような反復的なアライメントスキームにより、我々のIA-Netは、時間境界を段階的に推論するために、視覚と言語ドメイン間のきめ細かい関係を確実に捉えることができる。
3つの挑戦的なベンチマークで実施された大規模な実験により、提案手法は最先端のモデルよりも優れた性能を示した。
関連論文リスト
- TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Introducing Gating and Context into Temporal Action Detection [0.8987776881291144]
時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。
最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。
本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-06T11:52:42Z) - Temporally Grounding Instructional Diagrams in Unconstrained Videos [51.85805768507356]
本稿では,ビデオ中の命令図中のクエリ列を同時にローカライズするという課題について検討する。
既存のほとんどのメソッドは、クエリの固有の構造を無視しながら、一度に1つのクエリをグラウンドすることに焦点を当てている。
ステップダイアグラムの視覚的特徴を包括的にペアリングして構築した複合クエリを提案する。
ステップ図のグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T05:44:30Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。