論文の概要: Learning Action Changes by Measuring Verb-Adverb Textual Relationships
- arxiv url: http://arxiv.org/abs/2303.15086v1
- Date: Mon, 27 Mar 2023 10:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:49:40.813156
- Title: Learning Action Changes by Measuring Verb-Adverb Textual Relationships
- Title(参考訳): 動詞-副詞関係の測定による学習行動の変化
- Authors: Davide Moltisanti, Frank Keller, Hakan Bilen, Laura Sevilla-Lara
- Abstract要約: 映像中の動作に適応した変化を示す副詞を予測することを目的としている。
我々は,副詞の予測とアントロニム分類に関する最先端の結果を得た。
そこで我々は,異なる動作を行うと意味のある視覚的変化を示す一連のアクションを,指導的レシピビデオに焦点をあてる。
- 参考スコア(独自算出の注目度): 40.596329888722714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this work is to understand the way actions are performed in
videos. That is, given a video, we aim to predict an adverb indicating a
modification applied to the action (e.g. cut "finely"). We cast this problem as
a regression task. We measure textual relationships between verbs and adverbs
to generate a regression target representing the action change we aim to learn.
We test our approach on a range of datasets and achieve state-of-the-art
results on both adverb prediction and antonym classification. Furthermore, we
outperform previous work when we lift two commonly assumed conditions: the
availability of action labels during testing and the pairing of adverbs as
antonyms. Existing datasets for adverb recognition are either noisy, which
makes learning difficult, or contain actions whose appearance is not influenced
by adverbs, which makes evaluation less reliable. To address this, we collect a
new high quality dataset: Adverbs in Recipes (AIR). We focus on instructional
recipes videos, curating a set of actions that exhibit meaningful visual
changes when performed differently. Videos in AIR are more tightly trimmed and
were manually reviewed by multiple annotators to ensure high labelling quality.
Results show that models learn better from AIR given its cleaner videos. At the
same time, adverb prediction on AIR is challenging, demonstrating that there is
considerable room for improvement.
- Abstract(参考訳): この研究の目的は、ビデオでのアクションの実行方法を理解することです。
つまり、ビデオが与えられた場合、その動作に適用される修正を示す副詞(例えば「きめ細かい」カット)を予測しようとする。
我々はこの問題を回帰課題とみなした。
我々は,動詞と副詞間のテキスト関係を計測し,学習対象とする行動変化を表す回帰目標を生成する。
我々は,このアプローチを様々なデータセット上でテストし,adverb予測と対義語分類の両方において最先端の結果を得る。
さらに、テスト中にアクションラベルが利用可能であることと、副詞を対語としてペアリングすることの2つの一般的な仮定条件を持ち上げることで、以前の作業よりも優れています。
既存の副詞認識用データセットはノイズがあり、学習が困難になるか、外観が副詞の影響を受けない動作を含むため、評価の信頼性が低下する。
これに対処するために、私たちは新しい高品質データセット、adverbs in recipes (air)を収集します。
我々は,授業用レシピビデオに着目し,異なる実行時の視覚的な変化を示す一連のアクションをキュレートする。
AIRのビデオはよりトリミングされ、複数のアノテーションによって手動でレビューされ、高いラベリング品質が保証された。
結果は、よりクリーンなビデオから、モデルがAIRからより良く学習できることを示しています。
同時に、AIRの副詞予測は困難で、改善の余地がかなりあることを実証しています。
関連論文リスト
- Video-adverb retrieval with compositional adverb-action embeddings [59.45164042078649]
ビデオの中のアクションを記述する副詞を検索することは、きめ細かいビデオを理解するための重要なステップとなる。
本稿では,ビデオの埋め込みと合成副詞アクションテキストの埋め込みを一致させる,ビデオから副詞検索のためのフレームワークを提案する。
提案手法は,ビデオ・アドバブ検索のための最新の5つのベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-26T17:31:02Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs [52.042261549764326]
そこで本研究では,様々な行動にまたがる副詞を認識する手法を提案する。
提案手法は,複数の副詞の擬似ラベルを用いた半教師付き学習を用いる。
また、副詞がきめ細かな行動とどのように関連しているかを示す。
論文 参考訳(メタデータ) (2022-03-23T11:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。