論文の概要: Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition
- arxiv url: http://arxiv.org/abs/2601.16211v1
- Date: Thu, 22 Jan 2026 18:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.702723
- Title: Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition
- Title(参考訳): なぜ引き出しを開かないのか? ゼロショット合成行動認識におけるオブジェクト駆動ショートカットの緩和
- Authors: Geo Ahn, Inwoong Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Jinwoo Choi,
- Abstract要約: 構成的ビデオ理解 (CVU) について検討し, モデルが動詞や対象を認識し, 未知の組み合わせに一般化するために構成する。
既存のゼロショット合成行動認識(ZS-CAR)モデルは、主に見過ごされた失敗モード(オブジェクト駆動動詞ショートカット)のために失敗する。
そこで本稿では,時相基底型動詞学習を実現するシンプルで効果的なフレームワークである RCORE を提案する。
- 参考スコア(独自算出の注目度): 16.359091055581008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Compositional Video Understanding (CVU), where models must recognize verbs and objects and compose them to generalize to unseen combinations. We find that existing Zero-Shot Compositional Action Recognition (ZS-CAR) models fail primarily due to an overlooked failure mode: object-driven verb shortcuts. Through systematic analysis, we show that this behavior arises from two intertwined factors: severe sparsity and skewness of compositional supervision, and the asymmetric learning difficulty between verbs and objects. As training progresses, the existing ZS-CAR model increasingly ignores visual evidence and overfits to co-occurrence statistics. Consequently, the existing model does not gain the benefit of compositional recognition in unseen verb-object compositions. To address this, we propose RCORE, a simple and effective framework that enforces temporally grounded verb learning. RCORE introduces (i) a composition-aware augmentation that diversifies verb-object combinations without corrupting motion cues, and (ii) a temporal order regularization loss that penalizes shortcut behaviors by explicitly modeling temporal structure. Across two benchmarks, Sth-com and our newly constructed EK100-com, RCORE significantly improves unseen composition accuracy, reduces reliance on co-occurrence bias, and achieves consistently positive compositional gaps. Our findings reveal object-driven shortcuts as a critical limiting factor in ZS-CAR and demonstrate that addressing them is essential for robust compositional video understanding.
- Abstract(参考訳): 構成的ビデオ理解 (CVU) について検討し, モデルが動詞や対象を認識し, 未知の組み合わせに一般化するために構成する。
既存のゼロショット合成行動認識(ZS-CAR)モデルは、主に見過ごされた失敗モード(オブジェクト駆動動詞ショートカット)のために失敗する。
体系的な分析を通して、この行動は、構成的監督の厳密さと歪み、動詞と対象間の非対称学習困難という2つの相反する要因から生じることを示す。
トレーニングが進むにつれて、既存のZS-CARモデルは視覚的証拠を無視し、共起統計に過度に適合する傾向にある。
その結果、既存のモデルでは、未知の動詞オブジェクトの合成における合成認識の利点が得られない。
そこで本稿では,時相基底型動詞学習を実現するシンプルで効果的なフレームワークである RCORE を提案する。
RCOREの紹介
一 動作手段を損なわずに動詞と目的の組み合わせを多様化する構成に留意すること。
(2)時間的構造を明示的にモデル化することにより、ショートカット動作を罰する時間的順序正則化損失。
Sth-comと新たに構築したEK100-comの2つのベンチマークにおいて、RCOREは目立たない構成精度を著しく向上し、共起バイアスへの依存を低減し、常にポジティブな構成ギャップを実現する。
以上の結果から,ZS-CARにおいてオブジェクト駆動のショートカットが重要な制限因子であることが明らかとなった。
関連論文リスト
- Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Zero-shot Compositional Action Recognition with Neural Logic Constraints [15.451848952659343]
ZS-CARは、訓練中に学習した動詞とオブジェクトプリミティブの知識を活用することで、ビデオ中の未確認動詞の合成を識別することを目的としている。
構成的学習の進展にもかかわらず,(1)構成的構造的制約の欠如,(2)意味的階層的制約の無視,意味的曖昧さと訓練過程の障害という2つの重要な課題が続いている。
我々は、人間のような象徴的推論が、構成的および階層的構造的抽象を明示的にモデル化することによって、これらの課題に対する原則的な解決策を提供すると主張する。
論文 参考訳(メタデータ) (2025-08-04T11:40:42Z) - Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。
本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - C2C: Component-to-Composition Learning for Zero-Shot Compositional Action Recognition [37.882924504860334]
ゼロショット合成行動認識(ZS-CAR)タスクを提案する。
タスクを評価するために、新しいベンチマークであるSomes-composition(Sth-com)を構築します。
また,新しいZS-CARタスクを解くために,新しいコンポーネント・ツー・コンポジション(C2C)学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:49:01Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - An Explicit-Joint and Supervised-Contrastive Learning Framework for
Few-Shot Intent Classification and Slot Filling [12.85364483952161]
Intent Classification (IC) と slot fill (SF) はタスク指向対話システムにおいて重要なビルディングブロックである。
クラスごとのトレーニングサンプルの数が非常に少ない場合、IC/SFモデルはほとんど機能しない。
そこで本稿では,数ショットの意図分類とスロットフィリングのための,明示的かつ教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-26T13:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。