論文の概要: Coarse or Fine? Recognising Action End States without Labels
- arxiv url: http://arxiv.org/abs/2405.07723v1
- Date: Mon, 13 May 2024 13:18:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:45:23.800864
- Title: Coarse or Fine? Recognising Action End States without Labels
- Title(参考訳): 粗いか細いか?ラベルなしで行動終了状態を認識する
- Authors: Davide Moltisanti, Hakan Bilen, Laura Sevilla-Lara, Frank Keller,
- Abstract要約: 画像中の行動の終末状態を認識する問題に焦点をあてる。
アノテーション付きエンドステートを持つデータセットは使用できない。
トレーニングデータを合成するための拡張手法を提案する。
- 参考スコア(独自算出の注目度): 38.36741035394727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We focus on the problem of recognising the end state of an action in an image, which is critical for understanding what action is performed and in which manner. We study this focusing on the task of predicting the coarseness of a cut, i.e., deciding whether an object was cut "coarsely" or "finely". No dataset with these annotated end states is available, so we propose an augmentation method to synthesise training data. We apply this method to cutting actions extracted from an existing action recognition dataset. Our method is object agnostic, i.e., it presupposes the location of the object but not its identity. Starting from less than a hundred images of a whole object, we can generate several thousands images simulating visually diverse cuts of different coarseness. We use our synthetic data to train a model based on UNet and test it on real images showing coarsely/finely cut objects. Results demonstrate that the model successfully recognises the end state of the cutting action despite the domain gap between training and testing, and that the model generalises well to unseen objects.
- Abstract(参考訳): 画像中の動作の終末状態を認識する問題に焦点をあて,どの動作が実行されるのか,どのような動作が実行されるのかを理解する上で重要な課題である。
本研究は,カットの粗さを予測する作業,すなわち,被切断物が「粗さ」か「細さ」かを決定することに焦点を当てたものである。
これらの注釈付き終末状態を持つデータセットは利用できないため、トレーニングデータを合成するための拡張手法を提案する。
本手法は,既存の行動認識データセットから抽出した行動の切断に適用する。
私たちのメソッドはオブジェクトに依存しない、すなわち、オブジェクトの位置を前提としますが、そのIDではありません。
オブジェクト全体の100枚未満の画像から始めて、視覚的に多様な粗いカットをシミュレートする数千の画像を生成することができる。
合成データを用いて、UNetに基づいてモデルをトレーニングし、粗大で微妙にカットされたオブジェクトを実画像でテストします。
その結果、トレーニングとテストのドメインギャップにもかかわらず、モデルがカット動作の終了状態を認識することができ、モデルは目に見えないオブジェクトにうまく一般化することを示した。
関連論文リスト
- One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs [8.872100864022675]
我々は,Sybolicized Abstraction Graphs (PSAG) によるビデオデモの解釈を提案する。
さらに,非幾何学的,視覚的に知覚できない属性を推定するために,シミュレーションによる幾何学的制約を示す。
我々のアプローチは、Avocado、Cutting Vegetable、Pouring Liquid、Rolling Dough、Slicing Pizzaといった様々なタスクで検証されている。
論文 参考訳(メタデータ) (2024-08-22T18:26:47Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Disentangle Saliency Detection into Cascaded Detail Modeling and Body
Filling [68.73040261040539]
本稿では,サリエンシ検出タスクを2つのサブタスク,すなわち詳細モデリングとボディフィリングに分解することを提案する。
具体的には、詳細モデリングは、明示的に分解された詳細ラベルの監督によってオブジェクトエッジをキャプチャすることに焦点を当てる。
ボディフィリングは、ディテールマップに充填されるボディ部分を学び、より正確なサリエンシマップを生成する。
論文 参考訳(メタデータ) (2022-02-08T19:33:02Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。