Fugu-MT 論文翻訳(概要): ACE: Action Concept Enhancement of Video-Language Models in Procedural Videos

論文の概要: ACE: Action Concept Enhancement of Video-Language Models in Procedural Videos

arxiv url: http://arxiv.org/abs/2411.15628v1
Date: Sat, 23 Nov 2024 18:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.498185
Title: ACE: Action Concept Enhancement of Video-Language Models in Procedural Videos
Title（参考訳）: ACE: 手続き型ビデオにおけるビデオ言語モデルのアクション概念の強化
Authors: Reza Ghoddoosian, Nakul Agarwal, Isht Dwivedi, Behzad Darisuh,
Abstract要約: 行動概念強化(ACE)は視覚言語モデル(VLM)の概念理解を改善する ACEは補助的な分類損失に拡張作用シノニムと負を継続的に組み込む。エンコードされたエンコードされたアクションシノニムの埋め込みのアライメントを、埋め込み空間に可視化することにより、VLMの概念理解の強化を示す。
参考スコア（独自算出の注目度）: 7.030989629685138
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-language models (VLMs) are capable of recognizing unseen actions. However, existing VLMs lack intrinsic understanding of procedural action concepts. Hence, they overfit to fixed labels and are not invariant to unseen action synonyms. To address this, we propose a simple fine-tuning technique, Action Concept Enhancement (ACE), to improve the robustness and concept understanding of VLMs in procedural action classification. ACE continually incorporates augmented action synonyms and negatives in an auxiliary classification loss by stochastically replacing fixed labels during training. This creates new combinations of action labels over the course of fine-tuning and prevents overfitting to fixed action representations. We show the enhanced concept understanding of our VLM, by visualizing the alignment of encoded embeddings of unseen action synonyms in the embedding space. Our experiments on the ATA, IKEA and GTEA datasets demonstrate the efficacy of ACE in domains of cooking and assembly leading to significant improvements in zero-shot action classification while maintaining competitive performance on seen actions.
Abstract（参考訳）: 視覚言語モデル(VLM)は、目に見えない行動を認識することができる。しかしながら、既存のVLMは手続き的アクション概念の本質的な理解を欠いている。したがって、それらは固定ラベルに過度に適合し、目に見えない作用同義語には不変ではない。そこで本研究では、手続き的行動分類におけるVLMの堅牢性と概念理解を改善するため、簡単な微調整手法であるアクションコンセプト拡張(ACE)を提案する。 ACEは、トレーニング中に固定ラベルを確率的に置き換えることで、補助的な分類損失に強化された行動同義語と負語を継続的に組み込む。これにより、微調整の過程でアクションラベルの新たな組み合わせが作成され、固定されたアクション表現への過度な適合が防止される。エンコードされたエンコードされたアクションシノニムの埋め込みのアライメントを、埋め込み空間に可視化することにより、VLMの概念理解の強化を示す。 ATA,IKEA,GTEAデータセットを用いた実験により,調理領域におけるACEの有効性が実証された。

関連論文リスト

Towards Fine-Grained Adaptation of CLIP via a Self-Trained Alignment Score [11.74414842618874]
適応中の微粒な相互モーダル相互作用をモデル化すると、より正確でクラス別な擬似ラベルが得られることを示す。局所化画像特徴と記述言語埋め込みとを動的に整合させる革新的なアプローチであるFAIR(ファインフルアライメント・アンド・インタラクション・リファインメント)を導入する。当社のアプローチであるFAIRは、きめ細かな教師なし適応において大幅なパフォーマンス向上を実現し、2.78%という顕著な全体的な向上を実現しています。
論文参考訳（メタデータ） (2025-07-13T12:38:38Z)
Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文参考訳（メタデータ） (2025-02-13T11:27:05Z)
FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文参考訳（メタデータ） (2024-09-02T20:08:06Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Cross-Video Contextual Knowledge Exploration and Exploitation for Ambiguity Reduction in Weakly Supervised Temporal Action Localization [23.94629999419033]
弱教師付き時間的行動ローカライゼーション(WSTAL)は、ビデオレベルのラベルを用いて、未トリミングビデオ中のアクションをローカライズすることを目的としている。私たちの研究は、データセット内のビデオ間のコンテキスト知識を探索し、活用することで、これを新しい視点から解決します。我々の手法は最先端の手法よりも優れており、他のWSTAL手法に簡単に接続できる。
論文参考訳（メタデータ） (2023-08-24T07:19:59Z)
Action Sensitivity Learning for Temporal Action Localization [35.65086250175736]
本稿では,時間的行動ローカライゼーションの課題に取り組むために,行動感性学習フレームワーク(ASL)を提案する。まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。各フレームの動作感度に基づいて、アクション認識フレームを正のペアとしてサンプリングし、アクション非関連フレームを除去する機能を強化するために、アクション感性コントラスト損失を設計する。
論文参考訳（メタデータ） (2023-05-25T04:19:14Z)
Weakly-Supervised Temporal Action Localization with Bidirectional Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文参考訳（メタデータ） (2023-04-25T07:20:33Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Elaborative Rehearsal for Zero-shot Action Recognition [36.84404523161848]
ZSARは、トレーニングサンプルなしでターゲット(見えない)アクションを認識することを目的としている。アクションクラスを意味的に表現し、見てきたデータから知識を伝達することは依然として困難である。本稿では,効率的なヒューマンメモリ技術であるElaborative RehearsalにインスパイアされたER強化ZSARモデルを提案する。
論文参考訳（メタデータ） (2021-08-05T20:02:46Z)
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。 Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文参考訳（メタデータ） (2021-02-16T10:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。