Fugu-MT 論文翻訳(概要): Learning to Segment Actions from Observation and Narration

論文の概要: Learning to Segment Actions from Observation and Narration

arxiv url: http://arxiv.org/abs/2005.03684v2
Date: Wed, 12 Aug 2020 03:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 22:29:35.174773
Title: Learning to Segment Actions from Observation and Narration
Title（参考訳）: 観察とナレーションから行動のセグメンテーションを学ぶ
Authors: Daniel Fried, Jean-Baptiste Alayrac, Phil Blunsom, Chris Dyer, Stephen Clark, Aida Nematzadeh
Abstract要約: 映像中の動作セグメント化に対して,ナレーションによって誘導されるタスク構造の生成セグメントモデルを適用する。我々は、トレーニング中にアクションラベルが知られていない、教師なしで弱い教師付き設定に焦点を当てる。
参考スコア（独自算出の注目度）: 56.99443314542545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We apply a generative segmental model of task structure, guided by narration, to action segmentation in video. We focus on unsupervised and weakly-supervised settings where no action labels are known during training. Despite its simplicity, our model performs competitively with previous work on a dataset of naturalistic instructional videos. Our model allows us to vary the sources of supervision used in training, and we find that both task structure and narrative language provide large benefits in segmentation quality.
Abstract（参考訳）: 映像中の動作セグメント化にナレーションによって導かれるタスク構造の生成セグメントモデルを適用する。トレーニング中にアクションラベルが知られていない、教師なし、弱教師なしの設定に焦点を当てます。その単純さにもかかわらず、我々のモデルは、自然主義的な指導ビデオのデータセットに関する以前の研究と競合する。私たちのモデルでは、トレーニングで使用される監督のソースを変更することが可能で、タスク構造とナラティブ言語の両方がセグメンテーション品質に大きなメリットをもたらしていることが分かりました。

関連論文リスト

Pose-Aware Weakly-Supervised Action Segmentation [11.154829751558006]
我々は、推論における使用を省略しながら、トレーニング中にポーズの知識を取り入れた弱い教師付きフレームワークを導入する。本稿では,アクション境界をより効果的に識別するために訓練されたフレームワーク全体の一部として,ポーズにインスパイアされたコントラスト損失を提案する。提案手法は,代表的データセットに関する広範な実験を通じて検証され,長い指導ビデオのセグメンテーションにおいて,従来の最先端技術(SOTA)よりも優れていた。
論文参考訳（メタデータ） (2025-04-08T05:42:55Z)
Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization [17.531847357428454]
ドメイン適応は特にロボティクスアプリケーションにおいて重要であり、ターゲットとなるドメイントレーニングデータは通常不足しており、アノテーションは入手するのにコストがかかる。本稿では、アノテートされたソースドメインデータが利用可能なシナリオに対して、自己教師付きドメイン適応手法を提案する。本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。
論文参考訳（メタデータ） (2023-09-27T10:37:36Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文参考訳（メタデータ） (2022-01-14T02:14:07Z)
Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文参考訳（メタデータ） (2021-11-11T15:15:11Z)
Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文参考訳（メタデータ） (2021-05-29T00:29:40Z)
Learning Actor-centered Representations for Action Localization in Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T06:06:58Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
DyStaB: Unsupervised Object Segmentation via Dynamic-Static Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文参考訳（メタデータ） (2020-08-16T22:05:13Z)
Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文参考訳（メタデータ） (2020-04-07T09:56:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。