論文の概要: Weakly Supervised Video Summarization by Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2001.05864v2
- Date: Sat, 29 Feb 2020 15:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 04:41:21.292704
- Title: Weakly Supervised Video Summarization by Hierarchical Reinforcement
Learning
- Title(参考訳): 階層強化学習による弱教師付きビデオ要約
- Authors: Yiyan Chen, Li Tao, Xueting Wang and Toshihiko Yamasaki
- Abstract要約: 本稿では,タスク全体を複数のサブタスクに分解して要約品質を向上させる,弱教師付き階層型強化学習フレームワークを提案する。
2つのベンチマークデータセットの実験は、我々の提案が教師付きアプローチよりも優れたパフォーマンスを達成したことを示している。
- 参考スコア(独自算出の注目度): 38.261971839012176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional video summarization approaches based on reinforcement learning
have the problem that the reward can only be received after the whole summary
is generated. Such kind of reward is sparse and it makes reinforcement learning
hard to converge. Another problem is that labelling each frame is tedious and
costly, which usually prohibits the construction of large-scale datasets. To
solve these problems, we propose a weakly supervised hierarchical reinforcement
learning framework, which decomposes the whole task into several subtasks to
enhance the summarization quality. This framework consists of a manager network
and a worker network. For each subtask, the manager is trained to set a subgoal
only by a task-level binary label, which requires much fewer labels than
conventional approaches. With the guide of the subgoal, the worker predicts the
importance scores for video frames in the subtask by policy gradient according
to both global reward and innovative defined sub-rewards to overcome the sparse
problem. Experiments on two benchmark datasets show that our proposal has
achieved the best performance, even better than supervised approaches.
- Abstract(参考訳): 強化学習に基づく従来の映像要約手法は,要約生成後にのみ報酬を受け取ることができるという問題がある。
このような報酬は希少であり、強化学習の収束を難しくしている。
もうひとつの問題は、各フレームのラベル付けが面倒でコストがかかることだ。
これらの問題を解決するために,タスク全体を複数のサブタスクに分解して要約品質を向上させる,階層的強化学習フレームワークを提案する。
このフレームワークは、マネージャネットワークとワーカーネットワークで構成される。
各サブタスクに対して、マネージャはタスクレベルのバイナリラベルによってのみサブゴールを設定するようにトレーニングされる。
サブゴールのガイドでは、グローバル報酬と革新的サブワードの両方に応じて政策勾配によってサブタスクにおけるビデオフレームの重要性スコアを予測し、スパース問題を克服する。
2つのベンチマークデータセットの実験は、我々の提案が教師付きアプローチよりも優れたパフォーマンスを達成したことを示している。
関連論文リスト
- Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [15.41342100228504]
ディープラーニングでは、データが不足している状況での学習を容易にするために補助的な目的がしばしば使用される。
Detauxと呼ばれる新しいフレームワークを提案し、非関係な新しい分類タスクを見つけるために、弱い教師付き非絡み込み手順を用いている。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Contrastive Losses Are Natural Criteria for Unsupervised Video
Summarization [27.312423653997087]
ビデオの要約は、ビデオ内の最も情報に富むサブセットを選択して、効率的なビデオブラウジングを容易にすることを目的としている。
本稿では,局所的な相似性,グローバルな一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。
本研究は,事前学習した特徴を軽量なプロジェクションモジュールで洗練することにより,フレームレベルの重要度をさらに向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T07:01:28Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。