論文の概要、ライセンス

# (参考訳) ジェネリックイベント境界検出:イベントセグメンテーションのベンチマーク [全文訳有]

Generic Event Boundary Detection: A Benchmark for Event Segmentation ( http://arxiv.org/abs/2101.10511v1 )

ライセンス: CC BY 4.0
Mike Zheng Shou, Deepti Ghadiyaram, Weiyao Wang, Matt Feiszli(参考訳) 本稿では,ビデオ全体をチャンクに分割する一般的な分類のないイベント境界を検出するための新しいベンチマークとともに,新しいタスクを提案する。 時間的ビデオセグメンテーションとアクション検出における従来の作業は、事前定義されたアクションカテゴリのローカライズに重点を置いているため、汎用的なビデオにはスケールしない。 認知科学(Cognitive Science)は、人間が動画を意味のある時間的チャンクに連続的に分割することが昨年から知られている。 このセグメンテーションは自然に行われ、事前定義されたイベントカテゴリはなく、明示的に要求されない。 本稿では、これらの認知実験を主流のCVデータセット上で繰り返し、分類のないイベント境界アノテーションの複雑さに対処する新しいアノテーションガイドラインを用いて、ジェネリックイベント境界検出(GEBD)と新しいベンチマークKineetics-GEBDを導入する。 実験と人間の研究を通じて、アノテーションの価値を実証する。 これはビデオ全体を理解するための重要なステップであり、適切なタスク定義とアノテーションの欠如により、これまで無視されていたものだと考えています。 さらに、人間が未来を正確に予測できない地点で境界線をマークすることの認知的発見に触発され、時間的予測可能性に基づく教師なしアプローチを探求する。 TAPOS データセットと Kinetics-GEBD 上での GEBD モデルの重要な設計要因を特定し,検討し,競争性能の達成と今後の課題を提案する。 CVPR'21 LOVEU Challenge: https://sites.google .com/view/loveucvpr2 1

This paper presents a novel task together with a new benchmark for detecting generic, taxonomy-free event boundaries that segment a whole video into chunks. Conventional work in temporal video segmentation and action detection focuses on localizing pre-defined action categories and thus does not scale to generic videos. Cognitive Science has known since last century that humans consistently segment videos into meaningful temporal chunks. This segmentation happens naturally, with no pre-defined event categories and without being explicitly asked to do so. Here, we repeat these cognitive experiments on mainstream CV datasets; with our novel annotation guideline which addresses the complexities of taxonomy-free event boundary annotation, we introduce the task of Generic Event Boundary Detection (GEBD) and the new benchmark Kinetics-GEBD. Through experiment and human study we demonstrate the value of the annotations. We view this as an important stepping stone towards understanding the video as a whole, and believe it has been previously neglected due to a lack of proper task definition and annotations. Further, inspired by the cognitive finding that humans mark boundaries at points where they are unable to predict the future accurately, we explore un-supervised approaches based on temporal predictability. We identify and extensively explore important design factors for GEBD models on the TAPOS dataset and our Kinetics-GEBD while achieving competitive performance and suggesting future work. We will release our annotations and code at CVPR'21 LOVEU Challenge: https://sites.google .com/view/loveucvpr2 1
公開日: Tue, 26 Jan 2021 01:31:30 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Generic Event Boundary Detection: A Benchmark for Event Segmentation ジェネリックイベント境界検出:イベントセグメンテーションのベンチマーク 0.67
Mike Zheng Shou Mike Zheng Shou 0.85
Deepti Ghadiyaram Deepti Ghadiyaram 0.85
Weiyao Wang Matt Feiszli 王文八夫 Matt Feiszli 0.68
Facebook AI Facebook AI 0.85
1 2 0 2 n a J 6 2 ] V C . 1 2 0 2 n a j 6 2 ] v c である。 0.81
s c [ 1 v 1 1 5 0 1 . s c [ 1 v 1 1 5 0 1 . 0.85
1 0 1 2 : v i X r a 1 0 1 2 : v i X r a 0.85
Abstract new with together task a presents paper This novel a detecting for benchmark generic, event taxonomy-free boundaries that segment a whole video Coninto chunks. Abstract new with together task a presents paper This novel a detection for benchmark generic, event taxonomy-free boundary that segment a video Coninto chunks。 0.82
ventional work in temporal video segmentation and accataction pre-defined localizing on focuses detection tion videos. 時間的ビデオセグメンテーションとアッカティフィケーションにおける心室活動 : 焦点検出映像の局所化 0.67
egories and thus does not scale to generic Cognitive Science has known since last century that humans consistently segment videos into meaningful temporal chunks. ジェネリック・コグニティブ・サイエンス(Cognitive Science)は、人間が常にビデオを意味のある時間的チャンクに分割していることを前世紀から知っていた。 0.57
naturally, happens segmentation This pre-defined no with event categories and without being explicitly asked to do so. 当然、セグメンテーション この事前定義されたnoはイベントカテゴリとともに行われ、明示的に要求されない。 0.59
Here, we repeat these cognitive experiments on mainstream CV datasets; with our novel annotation guideline which adboundary event taxonomy-free complexities the dresses of task of Generic Event Boundintroduce annotation, we the ary Detection (GEBD) Kineticsnew benchmark and the GEBD. 本稿では,これらの認知実験を主流のCVデータセット上で繰り返し実施し,関連する事象の分類を含まない複雑さ,ジェネリックイベント境界導入アノテーションの課題,GEBD(ary Detection)のKineeticsnewベンチマーク,GABDについて紹介する。 0.75
study we human Through experiment and demonWe annotations. 実験とデモンウェのアノテーションを通して人間を研究する。 0.60
strate the value of the view this as an imvideo stone portant the understanding towards stepping as believe and previously a whole, it has been neglected due to a lack of proper task definition and annotations. この見解の価値は、これを信じることへの理解を暗示的な石のポータントとして表し、以前は、適切なタスク定義とアノテーションの欠如のために無視されました。 0.62
Further, inspired by the cognitive finding that boundhumans mark the predict are they at aries future to points where unable un-supervised we explore accurately, approaches based extensively on temporal predictability. さらに、バインドヒューマンが予測をマークする認知的発見に触発されて、彼らは将来、監督できないポイントに近づき、我々は正確に、時間的予測可能性に基づいてアプローチを探索します。 0.57
We identify and explore design factors for GEBD on models important Kinetics-GEBD while and dataset TAPOS the achievour future suggesting ing competitive performance and work. 我々は,重要なKineetics-GEBDモデル上でGABDの設計要因を特定し,TAPOSをデータセット化することによって,競争性能と作業性の向上を示唆する。 0.60
CVPR’21 annotations We will release our at and code LOVEU Challenge: https://sites.google .com/ view/loveucvpr21 CVPR’21アノテーション オン・アンド・コード LOVEU Challenge: https://sites.google .com/ view/loveucvpr21 0.71
1. Introduction temporal in progress significant seen have years Recent 33, 59, 56, 35], 46, 15, 10, action detection [8, 44, 4, 32, and parsing segmentation [27, 3, 23, 12, 2, 30, 41] 29, in videos. 1. 重要な進歩の紹介の時系列は、近年33, 59, 56, 35], 46, 15, 10, アクション検出 [8, 44, 4, 32, およびパーシングセグメンテーション [27, 3, 23, 12, 2, 30, 41] 29 のビデオで見られる。 0.83
However, mainstream SOTA video mod[39, 42] short process commonly 31, 14, [51, els still 13] 7, 52, 1s clips (e g pooling long), followed by some kind of しかし、主流の SOTA ビデオ mod[39, 42] 短いプロセス一般的に 31, 14, [51, els still 13] 7, 52, 1 s クリップ (例えば、プールの長さ)、いくつかの種類が続きます。 0.86
1) A long boundaries: generic video of 1. 1) 長い境界: 1 の一般的なビデオ。 0.78
Examples Figure event and cut of boundary shot by segmented video jump event boundsubject predominating (the change to aries due action highlighted boundary with red circle). 例 セグメント化されたビデオジャンプイベント境界オブジェクトによる境界ショットの図のイベントとカット(リレーデュアクションの変更が赤い円で強調された境界)。 0.78
2) Event due to the color/brightness changes. 2)色・明度の変化によるイベント。 0.81
3) Event boundary due to new subject appears. 3) 新しい主題によるイベント境界が現れる。 0.82
a the predictions; video-level generate to operation current produced major seem to have does not tasks set of develscience Cognitive long-form video. あ... 予測: 映像レベル生成から操作電流への生成は、develscience cognitive long-form videoのタスクセットを持たないように思われる。 0.42
opments in modeling though, that humans think in terms of tells us [53], “events” (goal-directed sequences of like “washing a actions, car” or “cooking a meal”), and further, people segment events natbreaking video, perceiving spontaneously while urally and shorter series a into sequences and events down of longer kind units, without any of target event boundary specifying classes. しかし、モデリングにおいて、人間は[53]、”events”(”washing a action, car”、”cooking a meal”など、ゴール指向のシーケンス)、さらに人々は、ビデオに侵入するイベントを分類し、言語的にも短くも、aをより長い種類のユニットのシーケンスやイベントに、ターゲットのイベント境界を指定せずに、自発的に認識する。 0.72
As Fig 1 illustrates, long jump video can be sega mented into subparts at the following moments: scene cut, to Stand up. 図1に示すように、長いジャンプビデオは、次の瞬間にサブパートに分割することができます:シーンカット、立ち上がる。 0.74
from Jump change Jump, from Run change to temporal Annotating ground truth for tasks has existing been a long-lasting pain point: every target action category needs to be carefully defined, hand-crafted including each of indications semantic This end. ジャンプ変更ジャンプから、実行から時間への変更 タスクに対する注釈付け タスクの根本的真理は、長く続く痛点である。
訳抜け防止モード: ジャンプ変更ジャンプ、実行変更から時間的アノテーションへのタスクの接頭辞の真理は、長く続く痛点である:すべてのターゲットアクションカテゴリを慎重に定義する必要があります。 手 - 表示セマンティクスのそれぞれを含む作られたこのエンド。
0.70
and start action’s the results into following issues: アクションを開始すると、次の問題が発生します。 0.54
1 Shot Boundary (cut)timeEvent Boundary(action change)Event Boundary (action change)RunRunJumpSta nd upEvent Boundary (color change)Event Boundary (subject change) 1 Shot Boundary (cut)timeEvent Boundary (action change)Event Boundary (action change)RunRunJumpSta nd upEvent Boundary (color change)Event Boundary (subject change) 0.85
英語(論文から抽出)日本語訳スコア
1. 2. 3. 2. 1. 2. 3. 2. 0.85
to as generic numerous へ として 総称 多数 0.58
videos with class reviews This ビデオは クラスレビュー これ 0.67
This does not scale candidate classes. これは候補クラスをスケールしない。 0.74
remember many to annotators difficult It is for definitions the so simultaneously, number of per video taxonomy increases the grows. 多くのアノテーションを覚えることが難しい 定義を同時に行うために、ビデオ毎の分類の数が増加します。 0.67
very expensive. annotation makes Previous work typically focuses and shot on action boundaries, neglecting other event significant boundin are examples aries. 非常に高価です アノテーションによって、従来の作業がアクション境界にフォーカスし、撮影されるのが一般的になる。 0.62
a as such 1 Fig. a のような 1 フィグ。 0.47
shown Some suddenly changes. 突然の変化が見られる。 0.60
brightness new person appears, the work science Inspired we [53], cognitive the by proBoundary called Generic Event Detectask pose a new tion (GEBD) the moments where humans perceive to detect consistent relatively are The boundaries. 明るさの新しい人が現れ、作業科学に触発された[53]、ジェネリックイベントDetectaskと呼ばれるProBoundaryによる認知は、人間が一貫性を比較的検出するために知覚する瞬間を新しいイオン(GEBD)で示します境界です。 0.66
boundaries across level annotators; the main variable exis the of detail. レベルアノテーションの境界。主な変数は詳細をexisします。 0.66
For ample, one annotator might indicate at the beboundaries another might sequence, where a and ginning end dance of design dance move. 十分な場合は、あるアノテーションーは、別の境界で別の可能性列を示し、そこでは、デザインダンスのaとginningエンドダンスが動きます。 0.54
We every novel several annotate princonsistent ciples for ensuring level detail in annotation. 私たちは皆、アノテーションのレベル詳細を保証するためにいくつかの注釈一貫性のある原則を書いている。 0.40
of Further, since people have different perception mancould ners, we explicitly capture this variation with a multi-review protocol. さらに、人間は異なる知覚マンコールオタクを持つので、この変化をマルチリビュープロトコルで明示的に捉えます。 0.69
Backed up by these principles, we design a novel annotaan annotator tion guideline, training curriculum and quality assurance mechanism to create a benchmark for GEBD. これらの原則を背景として,GEBDのベンチマークを作成するために,新規なアノテータオンガイド,トレーニングカリキュラム,品質保証機構を設計する。 0.76
We each because video as [22] choose Kinetics source our of video video-level corresponds to its one dominant event at boundaries contains yet multiple 10s per video. ビデオは [22] 速度論的なソースを選択する ビデオビデオレベルは、境界での1つの支配的なイベントに相当し、1つのビデオに10回以上含まれている。 0.62
typically as Kinetics-GEBD, We name our new benchmark and we change shot classical 1) of types two annotate boundaries: and boundaries due to 2) boundaries which editing, event break an event into temporal units. 典型的には Kinetics-GEBD として、我々は新しいベンチマークを命名し、2つのアノテーション境界の型、および2つのバウンダリによるバウンダリ、イベントを編集し、イベントを一時単位に分割する。
訳抜け防止モード: 通常、kinetics - GEBD, 我々は新しいベンチマークを命名する 2種類の注釈付き境界のショット古典的1 )を変えます 境界線は 2 ) で 境界線は イベントを時間単位に分割して編集します
0.74
We do not constrain the semantic classes of the event boundaries, which are quite diverse: changes they can include action, or object in subject, change of of interaction, color, etc. アクションやオブジェクトを対象とする変更、インタラクションの変更、色など、非常に多様なイベントバウンダリのセマンティクスクラスに制約はありません。
訳抜け防止モード: イベント境界のセマンティクスクラスを制約しません。 非常に多様です。変化には行動も含まれます。 または対象のオブジェクト、相互作用の変化、色など。
0.63
this We believe task and dataset will be valuable event 1. これは task と dataset がイベント 1 に価値をもたらすと信じている。 0.69
Identifying immediately which is boundaries sumediting, video including applications for useful detechighlight keyframe marization, and selection, tion. 境界管理、有用なデテクストライトキーフレームマージングのアプリケーションを含むビデオ、選択, tion の即座に識別する。 0.57
Event boundaries video into natural, a divide unnatural meaningful units and rule out cuts in the middle of example. イベントバウンダリのビデオは自然に、不自然な意味の単位を分割し、例の真ん中でカットを除外する。 0.64
for unit, a Unblocking the community to address long-form video and whole video modeling understanding leveragvia segmented units and their ing the structures. unitは、セグメンテッドユニットとその構造を活用して、ロングフォームビデオと全ビデオモデリングを理解するためにコミュニティをブロックする。 0.78
temporal follows: summarized as can be contributions Our a benchmark, and new • We introduce task event generic detecting GEBD, for boundaries out human diverse in taxonomy predefined a videos. 時系列は以下の通り: コントリビューションとしてまとめる 私たちのベンチマーク、および新しい • タスクイベントジェネリック検出GEBDを、分類学の多様な人間が事前に定義したビデオの境界について紹介します。 0.64
Kineticswithactivity Kineticswithactivity 0.85
in: • • • boundvideo- イン: • • • バウンドビデオ 0.74
that disamguideline annotation We design a novel boundaries event taxonomy-free annotating biguates Accordingly, perspectives. この曖昧なアノテーション 私たちは、新しい境界のイベント分類なしアノテーションを設計します。 0.54
personal while preserves curriculum control quality and we design training annotators perform reliably. カリキュラムの制御品質を 保ちながら トレーニングアノテータを 確実に設計する 0.53
mechanism to ensure deboundary unsupervised novel a We develop event finding on based that the tection method cognitive cannot boundaries event “people perceive they when expredict accurately”. deboundary unsupervised novel aを開発するためのメカニズムは、tectionメソッドの認知がイベントのバウンダリを「正確に認識する」ことができないことに基づくイベント発見を開発する。 0.72
We conduct design extensive and compare various GEBD methods on the plorations and TAPOS [42] our Kinetics-GEBD. プロレーションとTAPOS [42] の様々なGEBD法を幅広く設計・比較しています。 0.72
dataset of our demonstrate We the value temporal applications aries on downstream including summarization. 当社のデータセットは、要約を含むダウンストリームのtemporal application ariesの価値を示しています。 0.60
video and classification level 2. ビデオと分類レベル2。 0.74
Related Work Detection Action Temporal methods localization or atstart time detect tempt to the infor and end time action long untrimmed, stances in videos. 関連作業検出動作のテンポラルメソッドは、ビデオのインフォワードとエンドタイムのアクションに対するテンポをローカライズまたは開始時に検出する。 0.83
benchmarks Standard include THUMOS [21], ActivityNet [1], HACS [58], etc. ベンチマーク標準にはTHUMOS [21]、ActivityNet [1]、HACS [58]などが含まれている。 0.73
and manspecified action classes a them target All of list of point start determining for the ually define the criteria and annotations end point each action, preventing at scale. そして、manspecified action class a them target ポイント開始の全てのリストは、uallyが各アクションの基準とアノテーションの終点を定義し、大規模に防止します。 0.79
of developed Numerous methods have been for temporal action detection [8, 10, 15, 44, 46, 32, 59, 56, 35]. 8, 10, 15, 44, 46, 32, 59, 56, 35]。
訳抜け防止モード: 時間的動作検出のための多数の手法が開発されている[8]。 10, 15, 44, 46, 32, 59, 56 , 35 ] .
0.85
33, 4, temporal proposal module Notably, many of them contain a solves problem analogous classification which a binary to foreground-backgroun d segsegmentation. 33, 4, 時間的提案モジュール 特筆すべきは、それらの多くは、前景-後景のセグゼグメンテーションに対するバイナリである、ソルクス問題類似の分類を含んでいる。 0.50
”Background” ments contain no action classes. background” mentsはアクションクラスを含まない。 0.80
However, pre-defined many other generic in background segcould appear events the main events and ments, generic is focus in segmenting this paper. しかし、バックグラウンドセグコルドの他の多くのジェネリックは、主要なイベントやメント、ジェネリックは、この論文のセグメント化に焦点を当てているイベントが表示されます。
訳抜け防止モード: しかし、pre - 背景segcouldで他の多くのジェネリックを定義すると、主要なイベントとmentがイベントとして現れる。 genericは、この論文のセグメンテーションにフォーカスしています。
0.50
Segmentation Temporal Action [27, 3, 23, 12, 29, 2, 30, frames. 区分の一時的な行為 [27, 3, 23, 12, 29, 2, 30, フレーム。 0.74
in 41, classes action 20] means every 50Salads are Some [49], GTEA [29], popular [24, 25], MERL Shopping [47], Breakfast etc. 41では、クラスアクション20は、いくつかの[49]、GTEA[29]、人気のある[24, 25]、MERLショッピング[47]、ブレックファーストなどすべての50サラードを意味します。 0.77
Another task called Temporal Action Parsing was recently proposed in segthe temporal boundaries to detect [42]; parsing aims for closely reis more menting an action into sub-actions. テンポラル・アクション・パーシング(Temporal Action Parsing)と呼ばれる別のタスクは、[42]を検出するために時間境界を分離して提案された。 0.65
This current work. our to However, lated annotations and these pre-defined also developed methods for action classes are generic boundaries. 現在の作品。 しかし、拡張アノテーションとこれらの事前定義されたアクションクラスのメソッドも汎用的なバウンダリです。 0.61
not only, Detection Shot Boundary to task classical detect is a shot transitions video due to editing such as scene cuts, fades/dissolves, and panning. ショット境界の検出 タスクの古典的検出 ショット境界は、シーンカット、フェイズ/ディスゾリューション、パンニングなどの編集によるショット遷移ビデオである。 0.74
Some recent works are [5, 16, 50, 43, 48]. 最近の作品には[5, 16, 50, 43, 48]がある。 0.83
These shot boundaries are well-defined since detect is set overcomplete and changes the to easy an paper, we shots between are often significant. これらのショット境界は、 detection がオーバーコンプリートに設定され、ペーパーが簡単に変更されるため、よく定義されます。 0.63
In this also annotate and detect shot boundaries in our Kinetics-GEBD benchmark; however, the main novelty lies in event boundaries into videos generic breaking for useful are which subparts. これはまた、kinetics-gebdベンチマークでショット境界を注釈と検出しますが、主な新機能はイベント境界をビデオにまとめることにあります。
訳抜け防止モード: In this also annotate and detection shot boundary in our Kinetics - GEBD benchmark ; しかし、主な斬新さは、 イベント境界にある ビデオの汎用的な破壊は、どのサブパートかである。
0.70
semantically-coheren t labeling the benchmarks 意味的コヒーレント ベンチマークのラベル付け 0.46
英語(論文から抽出)日本語訳スコア
3. Definition of the GEBD Task 3.1. 3. GEBD Task 3.1の定義。 0.83
Principles for Disambiguating Annotation experiments This paper but follows from [53], cognitive annotate the computer on taxonomy-free vision datasets, to subparts. 本論文では,アノテーション実験を曖昧にするための原則について述べるが,[53]では,分類学フリーな視覚データセットについてコンピュータに注釈を付ける。
訳抜け防止モード: 本論文では,アノテーション実験を曖昧化するための原則を述べるが,[53]から従う。 cognitive annotate the computer on taxonomy - free vision datasets, to subparts.
0.75
into video break that event whole boundaries a experiments However, many of the original involve limited simple videos, number of videos and use e g a single actor, free distractions from the event In generic, of interest. しかし、この出来事の全体的境界をビデオに分解する実験では、オリジナルのものの多くは単純なビデオに制限され、ビデオの数も制限され、例えば1人の俳優が、イベントから遠ざかることなく、興味をそそられる。
訳抜け防止モード: ビデオは、そのイベント全体の境界を破る実験にしますが、オリジナルの多くは、限られた単純なビデオを含みます。 ビデオの数と使用例単一の俳優、イベントからの自由な気晴らし一般的には、興味の。
0.70
of different distractions, with multiple natural actors, videos overcome ambiguity. 複数の自然な俳優と、異なった気晴らしのビデオはあいまいさを克服します。 0.51
of is more levels detail, etc., there To this carefully analyze what the causes for challenge, we are ambiguity and arrived at some guiding principles: the Focus space in detail of (a) The predomionlevel nating subject. より多くのレベルの細部などについて、チャレンジの原因が何であるかを慎重に分析するために、私たちは曖昧であり、いくつかのガイドとなる原則に到達します。 0.59
Instead of getting distracted by background events which do not relate with the video-level overarching event, annotators shall subject performfocus on the salient ing group, person, be could subject The event. ビデオレベルのオーバーアーチイベントとは関係のないバックグラウンドイベントに気を取られる代わりに、アノテーションーは、主観的なインググループ、人、対象となる可能性があることに焦点を当てる。 0.61
an a a the of object, or collection objects, depending video a on the content. オブジェクトのaまたはコレクションオブジェクトのaは、コンテンツ上のビデオaに依存します。 0.78
(b) The level of detail in time - Focus on the event boundto granularity deeper” at aries the level “1 compared video-level event. (b) 時間の詳細レベル - 「ビデオレベルのイベントを比較した1」というレベルで、粒度を深くするイベントに焦点を合わせます。 0.81
Given a video, it can be segmented at difevent the example, granularity. ビデオでは、例、粒度をdifeventでセグメント化することができます。 0.75
temporal ferent boundFor aries could be Jump of a long jump video 1) coarse: Long starts / ends, or 2) intermediate: Jump is into broken runfoot every 3) landing, and jumping, ning, step. テンポラル・フェレント・バウンドフォー・アリーズ (temporal ferent boundfor aries) は、長いジャンプビデオのジャンプである1) 粗大: ロングスタート/エンド、または 2) 中間: ジャンプは3回の着陸、そしてジャンプ、ning、ステップである。 0.71
fine: or All variants are legitimate segmentations, and could be described, say, with a probability distribution over possible boundaries. fine: or All variant は正当なセグメンテーションであり、確率分布を可能な境界を越えて記述することができる。 0.79
We embrace this ambiguity to a limited delevel boundaries to mark annotators instructed we gree: “1 some provided deeper” than the video-level event, and examples but no precise definition of “1 level”. 私たちはこのあいまいさを制限されたデレベル境界に受け入れ、ビデオレベルのイベントよりも「1人」が深く提供され、例は「1レベル」の正確な定義は行われていません。 0.70
This technique can be recursively applied to the segmented subparts when With imprinciple this desired. この技法は、所望の分割部分に対して再帰的に適用することができる。 0.62
is granularity finer can reliably agree on event plemented, we find that humans boundaries without the need of a hand-crafted event boundary - Multi-review. 私たちは、手作りのイベント境界を必要とせずに、人間の境界がマルチリビューであることに気付きました。 0.62
(c) The diversity of perception behaviors interpretations different have people cases, some In of “1 coarser. (c) 知覚行動の解釈の多様性は人によって異なるが、一部は「1より粗い」。 0.70
or deeper and deeper” level examgo slightly For ple, in a video of two consecutive Long instances, Jump long jump, while othtwo instances of segment some might units. あるいは、より深く、より深い”レベルの試験は、少しだけpleで、連続する2つのロングインスタンスのビデオでは、長いジャンプをジャンプし、othtwoのセグメンテーションのインスタンスは、おそらくいくつかのユニットになります。
訳抜け防止モード: または、より深く、より深い」レベル試験は、わずか2つの連続した長いインスタンスのビデオで、長いジャンプをジャンプします。 セグメントの一部のothtwoインスタンスは、ユニット。
0.68
ers would In jumping segment the running and practice, consider both are correct and find video we that one usually has at most 2-3 such possible variations due to the ambiguity the than rather differences perceiving human of task to definition. 実行とプラクティスのセグメントをジャンプする 両方が正しいと考え、ビデオを見つける 普通、人間のタスクの定義に対する知覚の違いよりも、あいまいさのため、少なくとも2~3つの可能なバリエーションがある。 0.74
Thus, capture such diversity, we assign 5 annotators for each video based the rule of thumb in user research 1. experience そこで,このような多様性を捉えるために,ユーザリサーチにおいて,各ビデオに5つの注釈を割り当てる。 0.70
taxonomy. 1https://www.experie ncedynamics.com/blog /2019/03/5-user-samp lesize-myth-how-many -users-should-you-re ally-test-your-ux 分類学 1https://www.experie ncedynamics.com/blog /2019/03/5-user-samp lesize-myth-how-many -users-should-you-re ally-test-your-ux 0.29
Timestamps vs format(d) The Time annotation Ranges. Timestamps vs format(d) Time アノテーションの範囲。 0.73
The above principles clarify when to mark an event is marking where. 上記の原則は、イベントのマークがどこにあるかを明確にする。 0.68
question remaining boundary. FolThe accommodate some can previous works, we lowing ambiby varying error evaluation during in guity tol”where” an 3.2. in Sec. 残りの境界を問う Fol 以前の作業のいくつかは可能で、 Sec で 3.2. を guity tol で "where" するときに、アンビビーの様々なエラー評価を低くする。
訳抜け防止モード: 残りの境界を問う Fol以前の作品を収容できます。 We Lowing ambiby varying error Evaluation during in guity tol”where ” a 3.2 . in Sec.com” (英語)
0.72
can threshold; more erance To found be details for marking an facilitate annotators, we provide two options boundary: 1) A single event “Timestamp”, typically used for jumping instantaneous change (e g the moment when begins in long jump). can threshold; found to more erance to found は、アノテータをマークするための詳細である。 1 つのイベント "timestamp" は、通常、瞬間的な変更(例えば、長いジャンプで始まる瞬間)のジャンプに使用される。 0.68
2) A possible “Range”, typically used gradual yet short for the between the moment e g change More landing and the end of start up. 2) 可能な "Range" は、通常、eg 変更の瞬間の間において徐々に使用されるが、徐々に短くなる。 0.69
detailed of standing can be found in Supp. スタンディングの詳細は Supp.com で確認できます。 0.59
3.2. Evaluation Protocol can a be either boundary a 3.1, Sec. 3.2. 評価プロトコルは、境界 a 3.1, Sec とすることができる。 0.73
in described As it represent range, we short is it timestamp or a range. 説明では、範囲を表すので、タイムスタンプか範囲を短くします。 0.70
If a evalThus, our timestamp evaluation. evalThusの場合、タイムスタンプの評価を行います。 0.60
during its middle by debetween is task uation the discrepancy the to measure the and timestamp, regardtected ground truth timestamp To measure the less of their types semantic meanings. その中間は、タスクuation the discrepancy the to measure the and timetamp, regardtected ground truth timestamp to measure the less of types semantic meaningsである。 0.73
or discrepancy between timestamps, we follow previous works [42] action as such instance an of parsing temporal onand and the Relative Disuse [45] start line detection of action IntersectionInspired by the (Rel.Dis.) またはタイムスタンプ間の相違は、時間的オンアンドと相対的ディスユース [45] の開始行検出のパースなどの以前の作品 [42] アクションに従う(Rel.Dis.)。 0.80
measurement. tance over-Union measurement, Rel.Dis. 測定。 tance over-Union Measurement, Rel.Dis 0.74
is the error the between detected and ground truth timestamps, divided by the length Given action corresponding whole a instance. エラーは検出された真理と基底的真理の間のタイムスタンプであり、インスタンス全体に対応するアクションの長さによって分けられる。 0.63
of the fixed threshold deteccan for Rel.Dis., we determine whether a (i.e. Rel.Dis. の固定しきい値検出器の a か (すなわち) かを決定する。 0.59
≤ threshold) incorrect tion is correct or (i.e. ≤ しきい値) 間違った tion は正しいか (すなわち) です。 0.71
> threshcompute then old), for score recall, precision, and the F1 detection whole dataset. threshcompute then old) for score recall, precision, and the F1 detection whole dataset。 0.69
Note duplicated for same that the boundary is not allowed. 境界が許可されていないことにも同様に注意する。 0.57
the Global/Local We have explored other metrics, e g proposed Error Consistency discusDetailed 36]. グローバル/ローカル 他のメトリクス、例えばError Consistency discusDetailed 36]を探索しました。 0.63
[37, sions can be found in Supp. [37, sions can be found in Supp. 0.85
4. Benchmark Creation: Kinetics-GEBD 4.1. 4. ベンチマーク作成: Kinetics-GEBD 4.1。 0.71
Video Sources Train Kinetics-GEBD videos in used The our are Set from Kinetics-400 Train Set selected 20K videos randomly [22]. Video Sources Train Kinetics-GEBD Video in used The Our is Set from Kinetics-400 Train Set selected 20K Video eachly [22] 0.92
Our Kinetics-GEBD Test contains 20K another Set videos randomly selected from Kinetics-400 Train Set. kinetics-gebdテストでは、kinetics-400トレインセットからランダムに選択した20kのセットビデオが含まれている。 0.44
Our in KineticsKinetics-GEB D Val Set contains all 20K videos 400 Val Set. 私たちのIn KineticsKinetics-GEB D Val Setには、全20Kビデオ400 Val Setが含まれています。 0.56
4.2. Annotation Guideline Overview. 4.2. 注釈ガイドラインの概要。 0.75
outlined Following in 3.1, Sec. 以下に3.1で概説する。 0.68
the principles section presents the guidelines for Kineticsspecifics of this paper boundaries, but shot event GEBD. 原則セクションでは、この論文の境界のKineticsspecificsのガイドラインを示しますが、ショットイベントGEBD。 0.65
This focuses on videos. これはビデオに焦点を当てている。 0.51
Kinetics common also are boundaries change in we Thus, also annotate shot boundaries. 速度論はまた、We における境界の変更であり、ショット境界も注釈付けする。 0.54
videos with In in inによるビデオ で 0.77
英語(論文から抽出)日本語訳スコア
suggest that high-level granularity for event boundaries multiple shots, the target corresponding event. 高いレベルは イベントバウンダリの粒度 複数のショット、ターゲットに対応するイベント。 0.62
shot-level than is the deeper level 1 More interface, annotation video redetails (e.g our own annotating shot boundaries) for jection criteria, instructions can be found in Supp. shot-level than the deep level 1 More interface, annotation video redetails (例えば、私たち自身の注釈付きショットバウンダリ) for jection criteria, instructions can found in Supp。 0.84
Event Boundary. [6] studies Cognitive event can boundaries be characterized by charseveral acteristics. イベント境界。 6]認知事象の研究 境界は、慈善行動論によって特徴づけられる。 0.60
practice, we find that together with marking In position for an event boundary, annotating these characteristhinking actively by can keep annotators it is beneficial; tics explicitly characteristic them to of choose each asking the comas well boundary, some as event reminding them of mon characteristics of boundaries. ticsは、それぞれがcomas wellバウンダリを尋ねることを明示的に特徴付けしており、いくつかのイベントはバウンダリのmon特性を思い出させる。
訳抜け防止モード: 実践すれば イベントバウンダリの位置にマークする これらの特徴を積極的にアノテートすることで、アノテータを維持できる tics は、それぞれが comas well 境界を求めることを明示的に特徴付ける。 イベントとして、境界のmon特性を思い出させるものもあります。
0.70
Combining the cognitive findings and our study on Kievent candidate following at arrived we videos, netics the Change of Color: characteristics. 認知的な発見とKievent候補に関する私たちの研究を組み合わせると、私たちは着いたビデオ、色の変化:特性を否定します。
訳抜け防止モード: 認知的所見とkievent候補に関する我々の研究を組み合わせることでweビデオに追従した。 ネティクス 色の変化 : 特徴
0.78
signifi(1) boundary cant changes in color or brightness of the dominant sub(2) Change of Subject: jects or scenes. signifi(1) 境界は被写体の主部分(2) 変化の色や明るさが変化しない: 投射物やシーン。 0.75
new subject apdomisubject such disappears old or pears is and subject of Change of Object Interaction: the nant. 新しい被写体 apdomisubject such disappears old or pears is and subject of change of object interaction: the nant. (英語) 0.88
(3) subject starts to interact with a new object or is done with an old (4) Change of Action: object. (3) 被験者は、新しいオブジェクトとのインタラクションを開始するか、古い(4) アクションの変更: オブジェクトで行われます。 0.85
an old action ends, or a new includes when the characteristic that action starts. 古いアクションが終了する、または新しいアクションが開始する特性を含む。 0.75
Note this runner suddenly direction subject changes physical (e g a being changes direction) and when the same action peris formed multiple times (e g several consecutive push-up ini.e. この走者は突然、物理的に(例えば、方向を変えて)変化し、同じ作用ペニスが複数回(例えば、連続的な押し上げ ini.e. )形成されたときに注意する。 0.61
Multiple stances). options additional provide Also, we and Others. 複数のスタンス)。 オプションの追加も、私たちとその他を提供します。 0.66
4.3. Annotator Training annotator, new up ramp To a we training provide a consisting of curriculum a cascade training 5 of batches. 4.3. Annotator Training Annotator, new up ramp to a we trainingは、カリキュラムからなるバッチのカスケードトレーニング5を提供します。 0.75
batch training Each contains 100 randomly sampled Kinetics videos with some reference We make it annotations. バッチトレーニング それぞれに100のランダムにサンプルされたkineticsビデオが含まれています。 0.70
the annotator to the clear that different people may segment thus our provided annotations same video in different ways, reference. アノテーションは、異なる人が同じビデオを異なる方法でセグメント化することができることを明確にします。 0.74
and done batch are only for before Once a batch, we will review its moving the next the annotator to for all 100 videos and provide specific feedback annotations errors made regarding or misconto misunderstanding due do we Overall, duct the guideline. 完了したバッチは、バッチが一度に終わる前にのみ、次のアノテータを全100のビデオに移動し、特定のフィードバックアノテーションエラーや誤解を犯すことなく、ガイドラインをダクトします。 0.60
imof observe steady for training batches provements over each new annotator. 新しいアノテータに対する 訓練バッチの証明を しっかり観察する 0.53
4.4. Quality Assurance assurance detailed We our present quality mechanism trained on in Supp. 4.4. 品質保証の詳細Suppでトレーニングした現在の品質メカニズムについて紹介する。 0.67
annotators Briefly, were 5 cascaded batches videos, with of 100 a QA mechanism before they inin issues Typical real worked early training jobs. Annotators Brieflyは、5つのカスケードされたバッチビデオで、100のQAメカニズムで問題が発生する前に、典型的な実際の作業は初期のトレーニングの仕事でした。 0.60
on guidelines, tool or cluded misunderstanding of the as well as annotating too much or too little detail. ガイドライン、ツール、あるいは誤解をしすぎているだけでなく、注釈が多すぎるか、詳細が少なすぎる。 0.68
Training videos were of 1 (good), 2 (minor errors like inacrated on a scale typically misunderstanding 3 timestamps), curate (bad, and when jobs real to guidelines). トレーニングビデオは1(良い)、2(通常3つのタイムスタンプを誤解させるような小さなエラー)、キュレート(悪い仕事がガイドラインに当てはまる場合)の1つでした。 0.78
of Raters progressed their is レイター達の進歩は は 0.62
perits if sufficient. satisfying もしも 十分だ 満足 0.66
In practice, the acceptable and 実際には,受け入れられる,受け入れられる 0.50
deemed rating was annotator an of is below 1.3. is rating 評価はアノテーターaが1.3以下とされ 0.68
average formance average 4.5. 平均フォルマンス平均4.5。 0.73
Annotation Results Summary and Analysis Annotation capacity. アノテーション結果の概要と分析アノテーション容量。 0.69
40 around total, In annotaqualified trained to annotate our Kinetics-GEBD. In annotaqualified training to annotation our Kinetics-GEBD。 0.41
The tors were averper 5mins annotator. tors は averper 5mins annotator であった。 0.76
per video is around age speed received. ビデオは年齢の速さで受け取られます。 0.71
Recall Statistics of #annotations each video that can annotators. アノテーション可能な各ビデオの#annotationsの統計を思い出してください。 0.70
by annotated is a Annotators video reject 5 that most due stated in Supp. by annotated is a Annotators video reject 5 that most due stated in Supp. 0.85
Table 1 shows to the reasons videos receive all 5 annotations without rejection. 表1は、ビデオが拒否なしにすべての5つのアノテーションを受け取る理由を示しています。 0.57
3 0 #Annotations 342 101 #videos 1.73 0.51 Per. 3 0 #アノテーション 342 101 #videos 1.73 0.51 Per 0.85
(%) 4 2 805 203 1.03 4.07 set, #annotations Table 1. (%) 4 2 805 203 1.03 4.07 set, #annotations Table 1 0.87
For our Kinetics-GEBD Val #videos vs. video percentage . Kinetics-GEBD Val #videos vs. video percentage のため。 0.79
and annotation. for GEDB consensus extent The of Given a dataset, natural construction the of the question is “how annotations?”. アノテーションも GEDBのコンセンサス範囲 データセットが与えられたら、その質問の自然な構成は“どのようにアノテーションなのか? 0.54
consistent are the Adopting the protocol annotation one treat video, the 3.2, in same Sec. 一貫性は、同じSecでビデオを扱うプロトコルアノテーションの採用3.2である。 0.65
we for as ground truth and another as detection result. 根拠としての真理と 発見の結果としての真理です 0.51
annotation Since we expect consistent annotations to have very close boundaries in time, we do not use relative distance; instead, bedistance absolute on based score F1 evaluate we the tween two boundaries, varying the threshold from 0.2s to 1s with a step of 0.2s, and calculate the average F1 score. アノテーション アノテーションは時間内に非常に近い境界を持つことを期待するので、相対的な距離は使用しない。代わりに、ベーススコアF1に基づいて、ベッドスタンスは2つの境界を評価し、閾値を0.2sから0.2sに変化させ、平均的なF1スコアを計算する。
訳抜け防止モード: アノテーション 一貫性のあるアノテーションが時間内に非常に近い境界を持つことを期待しているからです。 相対距離を使わず F1は2つの境界を2つ評価する。 閾値は0.2sから0.2sに変化し、平均F1スコアを計算する。
0.77
By averaging the F1 score over all pairs of annotations for If score. Ifスコアに対するすべてのアノテーションに対して、F1スコアを平均化する。 0.59
can the consistency its video, we all obtain same annotators make very similar annotations, the consistency score will be high i.e. 一貫性のビデオは、私たち全員が同じアノテーションを取得し、非常に類似のアノテーションを作ることができ、一貫性スコアは高い。 0.59
towards 1; otherwise low i.e. 1 に向く; さもなければ低い 0.74
towards 0. 5 18166 91.94 received per 0となる。 5 18166 91.94 0.69
1 141 0.71 1 141 0.71 0.78
its Figure range of Val その Valの図範囲 0.75
videos number 2. The consistency score the not video the set when ビデオナンバー2。 the consistency score the not video the set when (英語) 0.71
percentage (above rejected percentage (複数形 percentages) 0.63
(below line) each line) on our Kinetics-GEBD any annotators. Kinetics-GEBDのアノテータの(ラインの下の)各ライン。 0.70
by of is for で その通りです ですから 0.56
Fig. 2 shows scores higher our signed task definition and annotation guideline, humans reach to able into フィギュア。 2は、私たちが署名したタスク定義とアノテーションガイドラインが高いスコアを示します。 0.56
that the majority of videos have consistency than 0.5. deThis indicates that are consensus, of degree decent ac- ビデオの大半が0.5.deThisよりも一貫性があることは、コンセンサスであり、ある程度まともなACであることを示しています。 0.46
given taking (0.9, 1]2.1%(0.8, 0.9]6.5%(0.7, 0.8]19.5%(0.6, 0.7]31.6%(0.3, 0.4]3.4%(0.4, 0.5]11.1%(0.5, 0.6]24.8% 与えられた (0.9, 1]2.1%(0.8, 0.9]6.5%(0.7, 0.8]19.5%(0.6, 0.7]31.6%(0.3, 0.4]3.4%(0.4, 0.5]11.1%(0.5, 0.6]24.8% 0.65
英語(論文から抽出)日本語訳スコア
to due that (1) different often human percount the factors segmena video can have multiple correct ception manners, annotators make mistakes. へ 期日 1) segmenaビデオが複数の正しい知覚マナーを持つことができる要因を人間のパーカウントが頻繁に異なること、アノテーションーは間違いを犯す。 0.52
sometimes tations, and (2) frequency the of how misannotation To understand correlates the annotation quality) with consistakes (i.e. 時々 tations と (2) 頻度 どのように誤記の頻度 理解する アノテーションの質を相関する) とコンパス (すなわち) を関連付ける。 0.71
in Table 2, we randomly sample 5 non-rejection tency score, conduct manand score consistency range each videos for get to according the ual auditing to the protocol in Sec. 表2では、ノンリジェクション・テンシースコア5をランダムにサンプリングし、Secのプロトコルへの経時監査に従って、各ビデオのマンアンドスコア一貫性範囲を指示する。
訳抜け防止モード: 表2では、ランダムに5つの非拒否テンシースコアをサンプリングします。 conduct Manand score consistency range each video to get to the ual auditing to the protocol in Sec.
0.83
4.4 score rating average for each range. 各範囲の4.4スコア評価平均。 0.79
As the consistency beRecall the comes for the gets worse. 一貫性のbeRecallは、より悪くなります。 0.60
low, cutoff that rating 1.3, the rating to determine qualified annotators is which corresponds to 0.5 consistency score here. 低い 評価1.3のカットオフ 適格なアノテータを決定する 評価は 0.5の一貫性スコアに相当する 0.81
Consistency Rating 2. Average 一貫性評価2。 平均 0.73
(0.4,0.5] 1.4 Table audit our Kinetics-GEBD Val (0.4,0.5)1.4 Table audit our Kinetics-GEBD Val 0.58
rating set. (0.5,0.6] 1.24 vs. 評価セット。 (0.5,0.6) 1.24 vs。 0.58
(0.6,0.7] 1.20 average F1 (0.6,0.7] 1.20平均F1 0.49
(0.7,0.8] 1.16 consistency (0.7,0.8] 1.16 一貫性 0.44
(0.8,1] 1.04 score on (0.8,1] 1.04点 0.62
4.6. Post-processing for the Annotations Given the raw annotations, we conduct followthe to steps post-processing ing construct our Kinetics-GEBD ensure (1) benchmark. 4.6. アノテーションのポストプロセッシング 生のアノテーションを考えると、Kinetics-GEBD ensure (1)ベンチマークのポストプロセッシングの手順に続きます。 0.63
To annotation and quality remove ambiguous very videos, we exclude videos lower that have consistency than score. 注釈や品質を曖昧なビデオから取り除くため、スコアよりも一貫性のある低いビデオは除外します。 0.63
(2) 0.3 To the diversity of capture least receive that human perception, we only keep videos at compared the detection is 3 annotations. (2)0.3 人間の知覚をほとんど受け取らない捕獲の多様性のために、我々は3つのアノテーションとの比較ビデオのみを保持します。 0.60
During evaluation, against annotation and the highest F1 truth ground each score result. 評価中、アノテーションに反し、最も高いF1真理は各スコアの結果を根拠とする。 0.59
(3) each annotation, is For final as the treated 0.1s), than (i.e. 3)各アノテーションは、(つまり)処理された0.1sとしてfinalである。 0.69
close are if we very boundaries less two that case includes this Note one. close は、このメモ 1 を含む場合の境界が 2 つ未満の場合です。 0.68
them into merge that the one Range or a Range, into one Timestamp boundary falls We with overlaps boundary another Range boundary. 1つの範囲または範囲が1つのタイムスタンプ境界にマージすると、我々は別の範囲境界と重なり合う。 0.74
remove from the initial and final 0.3s each any boundaries of video. ビデオのバウンダリごとに 初期と最終0.3sから取り除く。 0.73
5. An Unsupervised GEBD Approach 5.1. 5. A Unsupervised GEBD Approach 5.1。 0.84
Motivation and Overview Segmentation indicates 57] 40, Event Theory [26, that is where boundaries people one place perceive event future computaus This motivates predictable. 動機と概要セグメンテーションは、57] 40、イベント理論[26]を示しています。
訳抜け防止モード: モチベーションと概要セグメンテーションは 57 ] 40, イベント理論 [26] を示します。 境界の人々が1つの場所知覚イベント将来のコンピュータスこれは予測可能な動機です。
0.73
is activity to least in Sec. Secでは、少なくともアクティビティです。 0.71
5.2 tionally assess the video predictability over time temporal and then locate the boundaries by detecting based on the predictability stream in Sec. 5.2 時間経過時のビデオ予測可能性を評価し,secの予測可能性ストリームに基づいて境界を同定する。 0.83
5.3. This direction is inunsupervised, triguing in particular because it is and hence can need the videos, without of any handle potentially kind training amount large annotate and of collect a to data and labels; methods which use some supervision during training the should be strictly better. 5.3. この方向は無監督であり、特に、ビデオが必要であるため、特に、大量の注釈付きでデータやラベルを収集する可能性のある種類のトレーニング量や、トレーニング中にある程度の監督を必要とするメソッドは、厳格に改善されるべきである。 0.67
To evaluate feasibility of this direction, instantiate choices design several explore we (PA) method. この方向の実現可能性を評価するため、選択はいくつかの探索法(PA)を設計する。 0.65
our proposed Predictability Assessment 提案する予測可能性評価 0.65
to address two predictability of へ 予測可能性の2つ 0.61
5.2. Predictability Assessment We questions explore we as the potential utility for GEBD: (1) Does assessing predictability benefit from making future predictions? 5.2. 予測可能性評価 我々は、GABDの潜在的ユーティリティとして私たちを探求する:(1)予測可能性の評価は将来の予測から恩恵を受けるか? 0.69
assessment predictability Should the operate on (2) image, or another whole frame level of semantics? 評価予測性は、(2)イメージまたは他のフレームレベルのセマンティクスを操作すべきか? 0.81
PAstraightforward a For (1), approach, denoted PredDiff, for quantifying the predictability time at is to t the treat then future predict first prediction and 17] [54, the error as the indicator for (lack of) predictability. pastraightforward a for (1), approach, called preddiff, for quantified the predictionability time at is to t the treat then future predict first prediction and 17] [54, the error as the indicator for (lack of) predictability. (英語) 0.84
We use the recent Dense Predictive Coding (DPC) [17] framework which encodes backbone features over using a GRU time forfeatures backbone extrapolate t, we time For [9]. 我々は、GRU time forfeatures backbone expolate t, we time for [9]を使ってバックボーン機能をエンコードする最近のDense Predictive Coding (DPC) [17]フレームワークを使用します。 0.82
each distance ward and average the squared L2 to the true backbone future activations as our measure of predictability. 予測可能性の尺度として、各距離区と平均L2から真のバックボーン未来の活性化。 0.68
A PA-FeatDiff, simpler approach, denoted as for quantifydifferfeatur e compute time at predictability the ing to is t succeeding ences between the frames preceding t. We and squared L2 again use the norm to compute the backbone feature distance. a pa-featdiff, simple approach, for quantifydifferfeatur e compute time at predictability ing to is t after the ences between the frames before t. we and squared l2 では再びノルムを用いてバックボーン特徴距離を計算する。 0.83
More can be found implementation details show in Sec. 実装の詳細はSecで見ることができる。 0.57
6.3, PA-PredDiff in Sec. 6.3, PA-PredDiff in Sec 0.75
6.1. As results will is than PA-FeatDiff. 6.1. 結果はPA-FeatDiffよりです。 0.72
is conjecture The actually worse the that effectively errors made by a good future predictor no longer after the difference reflect and a change in video. 違いが反映され、ビデオが変化した後、良い将来の予測者が効果的にエラーを犯すことは、実際には悪いことです。 0.73
before Regarding frame image feaexpect we (2), that whole in the background which do not likely include changes tures into video chunks, a affect how humans would break and introduce may instead noise. フレーム画像のfaexpect (2) に先立ち、背景の全体は、ビデオチャンクへの変化を含まないが、人間がどのように破壊し、導入するかに影響を及ぼす可能性がある。 0.79
Since fohumans apparently cus on the dominant subject when determining event boundtwo explore units, we video long down to aries into a break a) SubjectTrack: kinds high-level semantics: detect of we the bounding box of the predominating subject and track it over time, and only feed the cropped bounding box seshown assessment model. イベント境界を探索するユニットを決定するとき、フォヒューマンは支配的な主題に足りるように見えるので、我々は長いブレイク a) サブジェクトトラック:種類高レベルセマンティクス:私たちは支配的な主題の境界ボックスを検出し、時間とともにそれを追跡し、トリミング境界ボックスセシャウアセスメントモデルにのみ供給する。 0.75
As predictability into quence the can significantly improve in Sec. quenceへの予測可能性として、secは大幅に改善できる。 0.50
6.2.2, this the boundary the detection performance long as predominating subas SubjectPose: ject can be reliably detected and tracked. 6.2.2、この境界は、主としてSubjectPose: jectが確実に検出され追跡される限り、検出性能である。
訳抜け防止モード: 6.2.2, これは検出性能の境界である。 jectは確実に検出され追跡される。
0.73
b) change person, is subject predominating the when of the a is However, strong cue its pose often for new event. b) 変更者は,a の時期を優先する立場にあるが,その姿勢が新規のイベントにしばしば現れる。 0.75
on both datasets explored in Sec. Secで探索された両方のデータセット。 0.59
6, the performance of SOTA pose estimation methods works not well due to that often or videos, gymnastics in e g abnormal, are poses the the partially or person tiny is observed. 6、SOTAポーズ推定方法のパフォーマンスは、しばしばまたはビデオ、例えば異常な体操のためにうまく動作しない、部分的にまたは小さな人が観察されているポーズです。 0.68
In any event, the trackevent ing results clearly show that semantics are strongly associated with the dominant performer. いずれにせよ、トラックイベントの結果は、セマンティクスが支配的なパフォーマーと強く関連していることを明確に示している。 0.46
from Predictability 5.3. 予測可能性5.3から 0.51
Temporal Boundaries predictability inverse the above, As is described φ (t) imply given distances at time t; lower distances by feature greater predictability. 時間境界の予測可能性は上述のように、φ (t) は時間 t で与えられた距離を意味する。 0.62
Given a measure φ (t), a natural basethe boundaries temporal propose to line method local at is maxima detection of φ. 測度 φ (t) を考えると、自然基底局所的な線法に対する境界時間的提案は、φ の最大検出である。 0.84
This is similar to the classical blob これは古典的なブロブに似ている 0.57
英語(論文から抽出)日本語訳スコア
problem, and thus we apply the classical Laplacian of Gausapproblem. 問題であり、したがってガウスapproblemの古典的ラプラシアンを適用する。 0.55
We 1D temporal our to filter (LoG) sian [34] compute L(t) = LoG(φ (t)), the to 1D LoG filter ply and L(cid:48) (t). 我々 1D は時間的我々の to filter (LoG) sian [34] 計算 L(t) = LoG(φ (t)))、 to 1D LoG フィルタ プライと L(cid:48) (t) 。 0.89
derivative its compute We detect temporal boundzero-crossings of L(cid:48), which aries at the negative-to-positive to local maxima of φ. correspond 微分計算 私たちはL(cid:48) の時間的有界交差を検出し、これは φ の正値から局所最大値に対応する。 0.61
for 6. Experiments 6.1. ですから 6. 実験6.1。 0.70
Setup Data. データのセットアップ。 0.80
addition In exalso we Kinetics-GEBD, our to on periment the containing [42] TAPOS recent dataset set actions. addition we Kinetics-GEBD, we to on periment the containing [42] TAPOS recent dataset set action。 0.78
21 videos sport Olympics training The with and the validation set contains 13,094 action instances con1,790 tains action instances. 21videos sport olympics training the with and the validation setには13,094のアクションインスタンスcon1,790 tainsアクションインスタンスが含まれている。 0.63
The authors manually defined how into sub-actions annotation to break each action the TAPOS boundaries taxonomy-free, purposes. 著者らは、TAPOS境界の分類のない目的のために、サブアクションアノテーションを使って各アクションを壊す方法を手作業で定義した。 0.49
While not boundto GEBD action are sub-actions between analogous for this aries. GEBD アクションは束縛されないが、この ary に類似する部分作用である。 0.54
can re-purpose dataset our GEBD Thus, we its action task by trimming each action label instance with hidden and conducting taxonomy-free boundary detection in TAPOS instance each that Note instance. これにより、各アクションラベルインスタンスを非表示にトリミングし、TAPOSインスタンスの各ノートインスタンスでタクソノミフリーバウンダリ検出を行うことで、アクションタスクを実行できます。 0.62
each on action is annotation annotated by raters but 1 rater’s has 3 only truth been released and thereby used as ground in our evaluation. それぞれの on action は rater のアノテーションでアノテートされていますが、1 rater は 3 つの真理しか公開していません。 0.60
Implementation Details. proposed GEBD denote We our as PA. As method on Predictability Assessment probased PA-FeatDiff assesses 5.2, the predictability in posed Sec. 実装の詳細。 予測可能性評価の手法としてPA-FeatDiffは、提案されたSecの予測可能性5.2を評価する。 0.63
feature differences before and after frame-level based on the boundary while PA-PredDiff relies on the prediction erimplementation features. pa-preddiffは予測的実装機能に依存しているが、境界に基づくフレームレベルの前後の特徴の違いがある。 0.56
frame future for is ror Our based PA-FeatDiff DPC2. set future for ror 我々のPA-FeatDiff DPC2。 0.70
on the ImageNet public code of uses pretrained ResNet-50 [18] for feature extraction. ImageNet public code of use pretrained ResNet-50[18] for feature extract。 0.75
We use 5 candidate boundary for and after frames both before coma PA-PredDiff a uses the puting feature distance. 我々は,コマPA-PredDiff の前に,フレームの前後に5つの候補境界を用いる。 0.73
GRU of into steps, 8 each step feeds 5 temporally where frames a inflated ResNet-50. gru of into step, 8 each step feed 5 temporally where frames a inflated resnet-50. (英語) 0.69
The first 5 are right before the steps The the after are steps 3 last the and boundary boundary. 最初の5つはステップの直前、後はステップ3であり、境界境界は最後である。 0.73
prediction error is computed between the predicted ResNet50 feature for the last 3 steps and the corresponding real features. 予測誤差は、予測された3ステップのresnet50機能と対応する実際の機能との間に計算される。 0.70
settings specifollowing The explicitly For each video, we sample 1 frame for every fied otherwise: to resized inputs 224x224. 各ビデオの仕様に従えば、fied毎に1フレームをサンプリングして、入力を224x224にリサイズします。 0.64
frames. The 3 are RGB images the 2 GP100 NVIDIA cards sigma are used. フレーム 3 は 2 GP100 NVIDIA カード sigma が使用されている RGB イメージです。 0.66
We tune the to 15. 私たちは15にチューニングします。 0.67
When comparing LoG filter on the Train set and set it various GEBD methods, we follow [42] to vary the Relative Distance (Rel.Dis.) Train セット上の LoG フィルタを比較して様々な GEBD メソッドを設定すると、[42] に従って相対距離(Rel.Dis.)を変化させる。 0.79
3.2 from 5% to 50% with a step 5%から50%までの3.2ステップ 0.83
threshold indicated in Sec. Secで示されるしきい値。 0.70
of 5%. unless 5%であった。 でなければ 0.59
used are in 2https://github.com/ TengdaHan/DPC 使用 は で 2https://github.com/ TengdaHan/DPC 0.62
6.2. Explorations the answer To two present the following 6.2. 以下の2点に対する回答を探究する 0.73
we design choice experimental 私たち デザイン選択実験 0.71
questions Sec. in explorations. 質問Sec。 探検中だ 0.54
5.2, explicit predictions Measuring predictability vs. 6.2.1 strategies: explore we we predictability, (1) 2 assess To prediction then measure and the future the erpredict first (PA-PredDiff), and (2) we directly measure the change ror (PA-FeatDiff), in a across space as point boundary feature PA-FeatDiff and 3 6.1. compares specified Sec. 5.2, 明示的な予測 予測可能性対6.2.1の戦略: 探索する 予測可能性、評価する 1) 予測する 予測する 最初に予測する(PA-PredDiff)、(2) 変更ror(PA-FeatDiff)を直接測定する 点境界特徴として空間を横断する PA-FeatDiff と 3.1。 0.77
Table in PA-PredDiff. PA-PredDiffのテーブル。 0.69
PA-FeatDiff PA-PredDiff, outperforms indicating that error prediction predictions, is making a model once good the difference reflects To keep across boundaries. PA-FeatDiff PA-PredDiffは、エラー予測の予測よりも優れており、境界を横切るように、モデルに差を反映させる。 0.68
no longer slim PAthe number of input frames consistent, we also PredDiff PA-PredDiff (2 steps) which to only 1 step has frames and the before of afof 1 boundary frames 5 5 step performance poor very the believe boundary. もはやスリムなPA入力フレームの数一貫性がない、我々はまた、PredDiff PA-PredDiff(2ステップ)は、唯一の1ステップにフレームを持ち、afof 1バウンダリフレームの前の5 5ステップのパフォーマンスは、非常に信条境界が悪い。 0.67
We ter the of this model reflects instability due to the very short temporal PA is window. 我々は、非常に短い時間的PAがウィンドウであることから、このモデルの不安定性を反映する。 0.67
In rest of the paper, our default using the PA-FeatDiff. 論文の残りの部分では、PA-FeatDiffを使用するデフォルトです。 0.58
threshold Rel.Dis. threshold Rel.Dis。 0.71
PA-PredDiff steps) PA-PredDiff (2 PA-FeatDiff on TAPOS Val 3. PA-PredDiff steps) PA-PredDiff (2 PA-FeatDiff on TAPOS Val 3 0.83
F1 results Table F1 result Table 0.92
0.5 0.355 0.223 0.399 our PA methods. 0.5 0.355 0.223 0.399 私達のPA方法。 0.47
0.3 0.248 0.155 0.271 various 0.3 0.248 0.155 0.271 0.50
0.2 0.204 0.128 0.213 for 0.2 0.204 0.128 0.213 0.53
0.1 0.150 0.096 0.156 0.1 0.150 0.096 0.156 0.45
0.4 0.299 0.192 0.336 0.4 0.299 0.192 0.336 0.45
Figure 3. SubjectTrack F1 results on TAPOS Val the dominant actor 図3。 subjecttrack f1 results on tapos val the dominant actor 0.75
subject can be reliably tracked. 被写体は確実に追跡できます 0.60
clearly improves results. 明らかに改善され 結果だ 0.57
for classes where Focusing on the main ですから 主に焦点をあてた授業は 0.62
on the dominant Focus 6.2.2 subject helps the are event Intuitively, boundaries acto generally related tor performing the event; changes in the background mostly acfocusing of importance the noise. 支配的な焦点6.2.2の主題は、areのイベントを直感的に支援し、バウンダリ acto は一般にイベントを実行する tor に関係する。 0.60
add the on test To SubjectTrack detects in proposed tor, is Sec.5.2; and it Add the on test To SubjectTrack detects in proposed tor, is Sec.5.2; and it 0.94
F1SnatchCleanAndJerk DiscusThrowLongJumpJ avelinThrowShotPut0. 00.10.20.30.4w/o Tracking Union + EnlargeInterpolation Union F1SnatchCleanAndJerk DiscusThrowLumpJavel inThrowShotPut0.00.1 0.20.4w/o Tracking Union + EnlargeInterpolation Union 0.15
英語(論文から抽出)日本語訳スコア
subof the dominant tracks the bounding sequence box bounding tracked from the features extracts and ject only frame-level beneobtain features). 支配的なトラックのサブは、特徴抽出から追跡され、フレームレベルの良性特徴のみを射出するバウンディングシーケンスボックスである。
訳抜け防止モード: 支配的なトラックのサブに 特徴抽出から追跡された 境界シーケンスボックス and ject only frame - level beneobtain features )。
0.81
To boxes (rather than tracking performances. ボックスに(パフォーマンスを追跡するよりも)。 0.66
We fits, we need to ensure good SOTA tracking model CenterTrack use the [60] trained on inaction certain experiment specifically and COCO on is one subject the dominant in TAPOS where stance classes single person of relatively large size (hence easy to track). 私たちは、適切なSOTA追跡モデルであるCenterTrackを、特定の実験でトレーニングされた[60]を使用し、COCOは、比較的大きな(従って追跡が容易な)スタンスクラス1人のTAPOSにおいて、支配的な対象のひとつです。 0.70
The raw output of CenterTrack is often discontinuous over time.To identify the predominating subject and obtain the raw trackthe connect frames, we gap the boxes missed in in a greedy manner based on the heuristic lets rules of large box overlap and box center location. センタトラックの生出力は時間とともに不連続であり、先行する被写体を特定して生のトラックを得るには、大きなボックス重なりとボックスセンター位置のヒューリスティックなルールに基づいて、見落とされたボックスを欲張りに分割する。 0.70
After connection, the tracklet box areas is deof largest accumulated bounding clared details More subject. 接続後、トラックレットボックス領域は、最大蓄積された有界詳細のデファクトとなる。 0.68
dominant for tracklet the the and visualization of some results can be found in tracking Supp. トラックレットに支配的な結果の視覚化は、Suppのトラッキングで見ることができる。 0.48
To obtain the boxes missed in the gap frames, we explore Interpolation strategy which interpolates the preceding the box and the succeeding box and finally our PA method takes box bounding the cropped input for detecting as sequence Alternatively, boundaries. ギャップフレームに欠落したボックスを得るために,先行ボックスと後続ボックスを補間する補間戦略を探求し,最後に本手法では,選択された入力にバウンドしてシーケンス境界として検出する。 0.83
predomtracklet for the of the Union comthat strategy the explore we subject, inating existing the area bines of box to union all areas that every the has ever appeared and finally crops the union subject Interarea on every video frame . predomtracklet for the of the union comthat strategy the explore we subject, 既存のboxのエリアビンを駆使して、すべてのボックスが出現したすべてのエリアを統一し、最後に、すべてのビデオフレームにユニオンテーマのインターエリアを生産する。 0.69
As shown in Fig. 3, and Union polation and much good are better comparably than w/o Tracking which frame the whole takes as input. 図に示すように。 3つは、およびユニオン ポーレーションおよび大いによい全フレームが入力として取るw/o追跡よりcomparablyです。 0.71
predomiThis the importance focusing on the of validates nant addition, since sometimes the detected box In subject. predomi 検出されたボックスが対象であることから、nant の追加を検証することに焦点を当てることの重要性。 0.61
also experiment Union + subject, we full cover does not the Enlarge which enlarges the union box by a ratio of 1.25 and of Union. また実験連合+主題、私達完全なカバーは連合箱を1.25および連合の比率によって拡大する拡大しません。 0.80
probThis degrades actually is the performance the at ably including some same due to noises subject and thus again indicates time of covering the full the importance of subject. probthis degrades(英語版)は、被写体がノイズのため、可逆的に同じものを含むパフォーマンスであり、被写体の重要性を完全にカバーする時間を示す。
訳抜け防止モード: prob This degrades actually the performance atably including some same due by noises subject 再び 主題の重要さを 網羅する時間を示すのです
0.65
on the focusing 6.3. 6.3に焦点を合わせます 0.68
Results of PA on TAPOS 4 shows results Table on val set. TAPOS 4 における PA の結果は val 上の表を示す。 0.80
For unsuTAPOS F1 (1) SceneDepervised methods, we compare our PA against tect3: detecting for online an library classical shot popular of PA (2) PA - Random: and changes detection results the among all videos randomly swapped and the position are its new video with the is mapped boundary each of to relSceneDevideo position unchanged. insuTAPOS F1 (1) SceneDepervised method, we compare our PA to tect3: detect for online a library classic shot popular PA (2) PA - Random: and changes detection results the the all video between randomly swapped and the position is the new video with the is mapped boundary each each to relSceneDevideo position。 0.79
original ative in the tect achieves high precision while quite low recall because it only fires at the very salient boundaries. テクテットの原型は 高い精度を達成します 非常に正常な境界でしか発射できません 非常に低いリコールです 0.55
results Detailed of precision and recall can be found in Supp. result 精度とリコールの詳細は Supp で確認できます。 0.71
Ours is clearly random guess. 我々の予想は明らかにランダムだ。 0.56
than the much better supervised of the quotes Table various 4 also results (1) including: [42] methods from Temporal parsing: TransParser with trained miner pattern a proposes [42] 3https://github.com/ Breakthrough/PyScene Detect テンポラル解析からの[42]メソッド:トレーニングされたマイニングパターンを持つTransParser aが提案する[42] 3https://github.com/ Breakthrough/PyScene Detect
訳抜け防止モード: 引用文のより優れた監督者 表 4 の結果も ( 1 ) : [42 ] テンポラル解析の方法を含む: トレーニングされたマイナパターンを持つTransParserが[42 ] 3https://github.com/ Breakthrough/PyScene Detectを提案する
0.69
background predominant supervision boundary sub-action based on a local loss the label instance action the trained with and suloss global a ConTemporal detection: boundary (2) Action pervision; (TCN) volution Network [27, 33] trains a binary classifier to distinguish around boundaries against other the frames segmentaaction (3) Weakly-supervised frames; temporal (CTM) Temporal Modeling Connectionist tion: [19] and (ISBA) Soft Assignment Boundary Iterative [11] are suoccurrence of the pervised by order of a set of pre-defined see sub-actions. 背景優勢 supervision boundary sub-action based on a local loss the label instance action the trained with and suloss global a ConTemporal detection: boundary (2) Action pervision; (TCN) volution Network [27, 33] trains a binary classifier to distinguish around boundaries against other the frames segmentaaction (3) Weakly-supervised frames; temporal (CTM) Temporal Modeling Connectionist tion: [19] and (ISBA) Soft Assignment Boundary Iterative [11] are suoccurrence of the pervised by order of a set of pre-defined see sub-actions. 0.81
It is encouraging that our unsupervised to PA ISBA, close results achieves method particular in to when strict. PA ISBAに対する教師なしのクローズな結果は、厳密な場合にメソッドを特に達成することを奨励します。 0.52
the threshold is i.e. しきい値は i.e. 0.75
not high 6.4. レベル6.4じゃない 0.61
Results of PA on Kinetics-GEBD set. Kinetics-GEBD セットの PA の結果。 0.81
We on Kinetics-GEBD val results shows F1 5 Table PA method other against our compare unsupervised methSceneDetect (1) method detection shot change ods: and PA - Random as (2) random guess explained 6.3. Kinetics-GEBD val 結果では,F1 5 Table PA 法が比較監視されていない methSceneDetect (1) 方法検出ショット変更 ods: と PA - Random と対比した。
訳抜け防止モード: We on Kinetics - GEBD val results shows F1 5 Table PA method against our comparison unsupervised methSceneDetect ( 1 ) method detection shot change ods : and PA - Random as ( 2 ) random guess explained 6.3 。
0.89
Sec. in SceneDetect as recall, low and precision high achieves it results Detailed very at fires salient only boundaries. Sec。 SceneDetectでは、リコールとして、低い、そして精度の高い結果が得られます。 0.64
of Ours precision and recall can be found in Supp. 私たちの精度とリコールの Supp で見つけることができます。 0.67
is clearly much better than the random guess and the shot change detection method especially when the threshrelative distance old high. 特にthreshrelative distanceが高くなった場合には、ランダムな推測やショット変更検出方法よりも明らかに優れている。 0.79
is 6.5. Applications of Video Event Boundaries 6.5です ビデオイベント境界の適用 0.79
Figure about sampling 4. 図 サンプリング4。 0.51
Middle the how to set number 番号を設定する方法の中間 0.79
based of boundaries our on provides uniform sampling. に基づいて 境界は均一なサンプリングを提供します 0.72
for frames cue classification Video-level 6.5.1 on accuracy classification test We the receive that videos Kinetics-GEBD annotations at least 3 in We use set. フレームは キュー 分類 ビデオレベル 6.5.1 on accuracy classification test 私たちは、ビデオKinetics-GEBDアノテーションを少なくとも3つ受信します。 0.65
Val implementation4 modelwhich [55] the of online the TSN applies ResNet-50 samples K frames, uniformly backbone average frame on each individually, and finally the predictions to get the video-level prediction. val implementation4 model which [55] the online the tsn apply resnet-50 sample k frames, uniformly backbone average frame on each each, and the predictions to get the video-level prediction (英語) 0.88
4 shows that Fig. 4は、その図を示します。 0.52
the video-level classification accuracy for uniform sampling as K varies increases (blue decreases then and curve) from 1 to 10. Kが1から10に増加(青はその後減少し、曲線)として均一サンプリングのためのビデオレベルの分類精度。 0.74
Alternatively, given our annotated boundaries, we can segment middle the sample and subparts into video each 4https://github.com/ mit-han-lab/temporal -shift-module あるいは、注釈付きバウンダリを考えると、サンプルとサブパートを4https://github.com/ mit-han-lab/temporal -shift-moduleごとにビデオに分割できます。 0.48
Avg #frames sampled per videoAccuracy (%)5055606570246810U niform SamplingOurs - Mid Sampling Avg #frames sampled per videoAccuracy (%)5055606570246810U niform SamplingOurs - Mid Sampling 0.91
英語(論文から抽出)日本語訳スコア
Rel.Dis. Super. Rel.Dis スーパー。 0.71
Unsuper. threshold TCN CTM ISBA TransParser SceneDetect PA - Random PA (Ours) Unsuper! threshold TCN CTM ISBA TransParser SceneDetect PA - Random PA (Ours) 0.79
0.05 0.237 0.244 0.106 0.289 0.035 0.025 0.123 0.05 0.237 0.244 0.106 0.289 0.035 0.025 0.123 0.42
0.1 0.312 0.312 0.170 0.381 0.045 0.041 0.156 0.1 0.312 0.312 0.170 0.381 0.045 0.041 0.156 0.42
0.15 0.331 0.336 0.227 0.435 0.047 0.054 0.185 0.15 0.331 0.336 0.227 0.435 0.047 0.054 0.185 0.42
0.2 0.339 0.351 0.265 0.475 0.051 0.067 0.213 0.2 0.339 0.351 0.265 0.475 0.051 0.067 0.213 0.42
0.25 0.342 0.361 0.298 0.500 0.053 0.080 0.241 0.25 0.342 0.361 0.298 0.500 0.053 0.080 0.241 0.42
0.3 0.344 0.369 0.326 0.514 0.054 0.092 0.271 0.3 0.344 0.369 0.326 0.514 0.054 0.092 0.271 0.42
0.35 0.347 0.374 0.348 0.527 0.055 0.103 0.305 0.35 0.347 0.374 0.348 0.527 0.055 0.103 0.305 0.42
0.4 0.348 0.381 0.369 0.534 0.056 0.115 0.336 0.4 0.348 0.381 0.369 0.534 0.056 0.115 0.336 0.42
0.45 0.348 0.383 0.382 0.540 0.057 0.127 0.366 0.45 0.348 0.383 0.382 0.540 0.057 0.127 0.366 0.42
0.5 0.348 0.385 0.396 0.545 0.058 0.137 0.399 0.5 0.348 0.385 0.396 0.545 0.058 0.137 0.399 0.42
avg 0.330 0.350 0.302 0.474 0.051 0.084 0.259 avg 0.330 0.350 0.302 0.474 0.051 0.084 0.259 0.46
Table 4. F1 results for 表4。 F1結果 ですから 0.71
various supervised and unsuperivsed GEBD methods 様々 監督 GEBD法とは? 0.60
on TAPOS. Rel.Dis. TAPOSで。 Rel.Dis 0.77
threshold SceneDetect PA - Random PA (Ours) threshold SceneDetect PA - Random PA (Ours) 0.85
0.05 0.275 0.099 0.242 0.05 0.275 0.099 0.242 0.45
0.15 0.1 0.312 0.300 0.171 0.136 0.474 0.382 for Table 5. 0.15 0.1 0.312 0.300 0.171 0.136 0.474 0.382 for Table 5. 0.53
F1 results 0.25 0.324 0.239 0.586 F1結果 0.25 0.324 0.239 0.586 0.65
0.3 0.2 0.327 0.319 0.273 0.206 0.624 0.538 various GEBD methods 0.3 0.227 0.319 0.273 0.206 0.624 0.538 様々なGABD法 0.50
0.35 0.330 0.306 0.657 0.35 0.330 0.306 0.657 0.45
0.4 0.332 0.339 0.688 on Kinetics-GEBD. 0.4 0.332 0.339 0.688 on Kinetics-GEBD 0.51
0.45 0.334 0.370 0.715 0.45 0.334 0.370 0.715 0.45
0.5 0.335 0.400 0.741 0.5 0.335 0.400 0.741 0.45
avg 0.318 0.253 0.564 avg0.3180.2530.564 0.56
is of subpart. each While not GEBD frame to designed boundaries our cue provide discriminative frames, select to achieve about how to set K in uniform sampling in order accuracy. は サブパートの 各 GEBD フレームから設計境界まで、私たちの cue は識別フレームを提供し、順序精度で均一なサンプリングで K を設定する方法について達成するために選択します。 0.63
classification high shows 4 Fig. 分類高は4フィグを示します。 0.57
that our simple sampling frame middle in average 5.5 (the red dot) uses video per and frames achieves accuracy close to the best by achieved practice in useful is This uniform sampling. 私たちの単純なサンプリングフレームは平均5.5(赤ドット)でビデオが使われており、この一様サンプリングは有効な実践によって最良に近い精度を達成している。 0.76
thus we and content is when the video diverse do not know what is the best K. In addition, sampling the middle frame (64.4% accu(63.0% acframes boundary sampling racy) outperforms and identify more that GEBD helps implies curacy). さらに、中間フレームをサンプリングする(64.4% accu(63.0% acframes boundary sampling racy)は、gebdがキュレーションに役立つと判断する)。
訳抜け防止モード: したがって、私たちとコンテンツは、ビデオの多様性が最高のkが何であるかを知らないときです。 中間フレームをサンプリングする(64.4 % accu(63.0 % acframes boundary sampling racy ) そして、gebdがキュレーションに役立つことをもっと特定します。
0.66
This boundaries (the frames at are less-discriminative frames less discriminative), and is theme that consistent with the predictive power. この境界(フレームは識別性の低いフレームであり、判別性が低い)は予測力と一致したテーマである。 0.71
less have boundaries 6.5.2 Video summarization select way a provide boundaries temporal Our to natural summarization. 境界は少なく 6.5.2 video summarization select way a provides boundary temporal our to natural summarization. (英語) 0.71
keyframes video for the conduct We folcompare Ours to tasks lowing two user study (sample the and Uniform (uniformly middle frame of subparts) sample In Task as Ours). keyframes video for the conduct we folcompare ours to lowing two user study (sample the and uniform (uniformly middle frame of subparts) sample in task as ours)。 0.72
frames number same the ran1, of we In Task from Kinetics-GEBD Val. フレームはrun1と同じで、in Task from Kinetics-GEBD Valです。 0.81
videos domly sample 2, between Ours distance frame we select the videos that the Uniform are task and the largest. ビデオ サンプル2 私たちの距離フレーム間で、ユニフォームがタスクであり、最大であるビデオを選択します。 0.73
involves around Each 200-250 videos. 約200-250のビデオを含みます。 0.54
“which asked are users 20 task, both in video each For set keyframes of better summarize the video comprehensively?” and shall vote one out of three options: (1) Set 1 is better; (2) Set 2 is better; (3) Tie (both good/bad summaoptions different percentage the shows Table rization). 「どれが20のタスクで、それぞれがビデオを包括的に要約するキーフレームのセットでビデオに含まれているか」と質問し、(1)セット1が良い、(2)セット2が良い、(3)タイ(良い/悪いサムマオプションはショー表のr化率が異なる)の3つの選択肢のうちの1つに投票する。 0.72
of 6 video-level winning at vote-level and at the (e g out of 20 投票レベルでの6つのビデオレベルの勝利(例:20人中1人) 0.70
the highest, Set is (1) for if #votes same video, votes the for random samples Ours for 1 wins). 最上位のセットは、(1)#votesが同じビデオに投票した場合、ランダムサンプルに投票して1勝)である。 0.75
We can see that is clearly large disparity Ours than Uniform and for better samples of outperforms Uniform. それは明らかにユニフォームよりも大きな格差であり、ユニフォームよりも優れたサンプルが均一であることがわかります。 0.55
significantly Percentage (%) random samples 1: Task disparity large 2: Task Table 6. かなり 割合 (%) ランダムなサンプル 1: タスク格差が大きい 2: タスクテーブル 6。 0.70
User study Vote-level Video-level Vote-level Video-level results for ユーザスタディ 投票レベルビデオレベルの投票結果 0.69
Uniform Ours 40.9 33.9 43.7 38.3 73.0 12.6 90.0 6.0 summarization. uniform ours 40.9 33.9 43.7 38.3 73.0 12.6 90.0 6.0 要約。 0.42
Tie 25.1 17.8 14.3 4.0 Tie 25.1 17.8 14.3 4.0 0.50
video 7. Conclusion and Future Work introduced the new task of GEBD In this paper, we have process. ビデオ 7. 結論と今後の課題として,GEBDの新たな課題を紹介した。
訳抜け防止モード: ビデオ 7. 結論と今後の課題として, GEBDの新たな課題を紹介した。 プロセスがある
0.76
annotation in the A new and resolved ambiguities has with Kinetics-GEBD, benchmark, been along created assurquality guidelines annotation novel and designs for proposed, with been has An ance. a new and resolved ambiguities in the a new and resolved ambiguities with kinetics-gebd, benchmark, with creating assurquality guidelines annotation novel and design for proposed, has an ance. (英語) 0.82
approach unsupervised explorations extensive for design choices. 設計選択に広範囲な 教師なしの探査に アプローチすることです 0.48
We have validated that GEBD appears amenable to unsupervised learning, and benefits from attending to the primary subject in for GEBD in also video. 我々は,GABDが教師なし学習に適していることを示すとともに,GABDの主科目への参加のメリットもビデオで検証した。 0.61
We downstream apvalue showed summarization. 下流のapvalueは要約を示した。 0.50
recognition plications and including is our work We believe an important stepping stone tounderstanding long-form video wards and hope it will enstrucevent temporal on based in future work able learning future, we the ture. 私たちは、長い形式のビデオウォードを根底から掘り下げる重要なステップストーンを信じ、未来を学べる将来的な仕事に基づいて、時間的基盤を築いていくことを願っています。 0.61
In plan annotate and create GEBD to benchmarks for scene changes which usually happen in much longer videos (e g when move from kitchen bathto when move [38] long ADL 30mins room in from videos, restaurant street to in hours [28] videos). 計画では、通常、はるかに長いビデオで発生するシーンの変更のベンチマークにGEBDをアノテートして作成します(例えば、キッチンバスから移動時に[38]長いADL 30minsルームをビデオ、レストランストリートから数時間で[28]ビデオに移動します)。 0.74
long UT-Ego 長いUTエゴ 0.78
英語(論文から抽出)日本語訳スコア
[3] [5] [4] [3] [5] [4] 0.85
the thank Jitendra Malik for はあ? Jitendra Malikに感謝します。 0.47
Costantino via detection video. 検出ビデオによるCostantino。 0.82
In Images of insightful guidance. イメージでは 洞察力のある指導 0.59
We in annotation from our Product 製品から注釈を付けて 0.57
support team and Annotation Tooling team. サポートチームとアノテーションツールチーム。 0.72
8. Acknowledgement We the great appreciate Data Operations References challenge [1] Activitynet 2016. http://activity-net. 8. Data Operations References Challenge [1] Activitynet 2016 http://active-net.co m/ をご覧ください。 0.79
2 2016. org/challenges/2016/ , N Sudeep and [2] Sathyanarayanan Aakur Sarkar. 2 2016 org/challenges/2016/ , N Sudeep and [2] Sathyanarayanan Aakur Sarkar。 0.89
A percepsegmenevent self prediction tual for framework supervised IEEE Conference on Computer In Proceedings of the tation. percepsegmenevent self prediction tual for frameworkはieee conference on computer in proceedings of the tationを監督した。 0.74
Vision and Pattern Recognition, pages 1197–1206, 2019. ビジョンとパターン認識、2019年1197-1206ページ。 0.77
1, 2 and Sivic, Josef Laptev, Jean-Baptiste Alayrac, Simon Ivan and manipLacoste-Julien. 1, 2 and Sivic, Josef Laptev, Jean-Baptiste Alayrac, Simon Ivan, manipLacoste-Julien。 0.93
discovery object Joint of states Proceedings of the IEEE International ulation In actions. discovery object Joint of state Proceedings of the IEEE International ulation In action (英語) 0.84
Conference on Computer Vision, pages 2127–2136, 2017. コンピュータビジョン会議』2127-2136頁、2017年。 0.80
1, 2 and Heilbron, Caba Fabian Humam Bernard Alwassel, and in actions Spotting search: Ghanem. 1, 2 and Heilbron, Caba Fabian Humam Bernard Alwassel, and in action Spotting search: Ghanem。 0.82
its videos Action Proceedings application In localization. 動画アクションプロシージャはローカライゼーションに適用される。 0.65
action temporal to of the Conference on Computer Vision (ECCV), European 2 1, 2018. コンピュータビジョン会議(ECCV)の一時的な行動、欧州2 1、2018。 0.66
Cucchiara. Rita Lorenzo Baraldi, for clustering and Shot scene reon Conference using broadcast Computer Analysis 801–811. Cucchiara Rita Lorenzo Baraldi, for clustering and Shot scene reon Conference using broadcast Computer Analysis 801-811 0.66
pages Springer, 2015. 2015年、スプリンガー。 0.47
2 chiland its and Herbert F Wright. 2chilandとそのHerbert F Wright。 0.70
Midwest Roger G Barker dren: The psychological ecology of an american town. 中西部ロジャーGバーカードレン:アメリカの町の心理的生態学。 0.61
1955. 4 Carreira Joao action Zisserman. 1955. 4 Carreira JoaoアクションZisserman。 0.81
vadis, and Andrew In CVPR, and the kinetics dataset. vadis, and andrew in cvpr, and the kinetics dataset。 0.69
recognition? a new model 2017. 認識? 2017年の新モデル。 0.79
1 Bryan Yu-Wei Chao, Vijayanarasimhan, SeySudheendra bold, David A Ross, Sukthankar. 1Bryan Yu-Wei Chao, Vijayanarasimhan, SeySudheendra bold, David A Ross, Sukthankar。 0.86
ReJia Deng, and Rahul temporal architecture r-cnn faster thinking action the lofor IEEE Conference the of on ComIn Proceedings calization. ReJia Deng氏、Rahul temporal architecture r-cnn faster thinking action the lofor IEEE Conference of on ComIn Proceedings calization。 0.73
puter Vision and Pattern Recognition, 1130–1139, pages 2018. puter Vision and Pattern Recognition, 1130–1139, pages 2018。 0.93
1, 2 Van Merri¨enboer, Gulcehre, Bart Kyunghyun Caglar Cho, and Schwenk, Fethi Bahdanau, Dzmitry Bougares, Holger phrase Learning representations Yoshua Bengio. 1, 2 ヴァン メリ ・ ジェンボア、Gulcehre、Bart Kyunghyun Caglar Cho、およびSchwenk、Fethi Bahdanau、Dzmitry Bougares、ホルガーフレーズ 学習表現 ヨシュア ベンジオ。 0.67
using rnn arXiv encoder-decoder for statistical translation. rn arXivエンコーダデコーダを使用して統計翻訳を行う。 0.65
machine preprint arXiv:1406.1078, 2014. マシンプレプリント arXiv:1406.1078, 2014 0.69
5 Xiyang Dai, Bharat Singh, Guyue Zhang, Larry S Davis, Yan Qiu Chen. 5 Xiyang Dai、Bharat Singh、Guyue Zhang、Larry S Davis、Yan Qiu Chen。 0.73
network context Temporal activity In ICCV, ization in videos. ネットワークコンテキスト 時間的活動 ICCVでは、ビデオのカスタマイズ。 0.77
2017. 1, 2 Li and Chenliang Xu. 2017. 1の2 LiおよびChenliang Xu。 0.79
Weakly-supervised Ding with tion boundary soft iterative segmentation Conference IEEE/CVF on Computer Vision Recognition, 2018. イオン境界ソフト反復セグメンテーション会議IEEE/CVF on Computer Vision Recognition, 2018。 0.62
7 Yazan Abu Farha and Jurgen Gall. 7 Yazan Abu FarhaとJurgen Gall。 0.76
Ms-tcn: Multi-stage poral convolutional network for action segmentation. Ms-tcn: アクションセグメンテーションのための多段多孔性畳み込みネットワーク。 0.61
Vision ceedings IEEE the Pattern Recognition, 2 Vision ceedings IEEE the Pattern Recognition, 2 0.85
and localacassignment. localacassignment です 0.41
Pattern and Grana, and hierarchical International and Patterns, パターン・パターン グラナ、そして階層的なインターナショナルとパターン。 0.67
Conference pages on 3575–3584, 会議ページ 3575-3584, 0.75
temIn Proand temIn Proand 0.85
Computer 2019. 2019年コンピュータ。 0.83
1, Quo [10] [12] 1, 現 [10] [12] 0.77
[11] for [6] [11] ですから [6] 0.75
[7] [8] [9] [7] [8] [9] 0.85
of [13] [14] ですから [13] [14] 0.74
[15] [16] [17] [15] [16] [17] 0.85
[18] [19] [20] [18] [19] [20] 0.85
[21] [22] [23] [21] [22] [23] 0.85
[24] [25] [26] [24] [25] [26] 0.85
[27] of the [27] ですから はあ? 0.57
2019. 5 1–4. 2019. 5 1–4. 0.80
learning detection. Conaction and In com- 学習 検出 対応 comで- 0.55
residual 6 boundary In Cascaded arXiv 残余6 境界 Cascaded arXiv 0.67
Jian Sun. CVPR, In ジャン・サン。 CVPR, In 0.71
Carlos Niebles. カルロス・ニーブルス。 0.54
supervised Malik, recognition. 監督 マルク、認識。 0.49
on Jitendra video conference オン Jitendraビデオ会議 0.73
Shaoqing Ren, and recognition. Shaoqing Ren、および認識。 0.75
image Fan, Haoqi for networks international image Fan, Haoqi for Networks International(英語) 0.80
architectures X3d: Expanding for the In Proceedings of IEEE/CVF and Pattern Vision Recognition, アーキテクチャ X3d: IEEE/CVF およびパターンビジョン認識の進行中の拡張。 0.83
Christoph Feichtenhofer. クリストフ・ファイヒテンホーファー。 0.44
efficient video recognition. Computer on Conference pages 1 203–213, 2020. 効率的なビデオ認識 コンピュータ・オン・コンファレンス・ページ1 203-213, 2020。 0.70
Feichtenhofer, Christoph Kaiming He. Feichtenhofer、Christoph Kaiming氏。 0.68
Slowfast of Proceedings IEEE the puter vision, 2019. Slowfast of Proceedings IEEE the puter vision, 2019。 0.83
1 Ram Nevatia. 1ラム・ネヴァティア。 0.47
and Jiyang Gao, Zhenheng Yang, action temporal boundary regression for arXiv:1705.01180, preprint 1, 2 2017. and Jiyang Gao, Zhenheng Yang, action temporal boundary regression for arXiv:1705.01180, preprint 1, 2 2017 0.95
Michael detection fast Ridiculously Gygli. マイケル検出高速厳格にGygli。 0.75
shot 2018 Internetworks. ショット2018インターネットワークス。 0.66
neural convolutional with fully national Conference on Content-Based Multimedia Indexing (CBMI), pages IEEE, 2018. neural convolutional with full national conference on content-based multimedia indexing (cbmi), pages ieee, 2018。 0.75
2 Tengda Han, Weidi Xie, Video and Andrew Zisserman. 2 Tengda Han、Weidi Xie、Video、Andrew Zisserman。 0.77
repIn Proceedresentation learning by dense predictive coding. repIn 密な予測符号化によるProceedresentation Learning。 0.72
ings IEEE International Conference on Computer Vision Workshops, Kaiming He, Xiangyu Zhang, Deep for 2016. ings IEEE International Conference on Computer Vision Workshops, Kaiming He, Xiangyu Zhang, Deep for 2016
訳抜け防止モード: ings IEEE International Conference on Computer Vision Workshops, Kaiming He, Xiangyu Zhang、2016年のための深い。
0.93
De-An Huang, Fei-Fei, and Juan Li nectionist temporal modeling for weakly In ECCV, labeling. De-An Huang、Fei-Fei、Juan Li Nectionist Temporal Model for weakly In ECCV、ラベル付け。 0.73
2016. 7 Yifei Huang, Improving Sato. 2016. 7 Yifei Huang, Improving Sato。 0.82
Yusuke Sugano, and Yoichi action reasoning. 菅野祐介と 与一の行動推論。 0.42
In temporal segmentation via graph-based Proceedings on Computer ViIEEE/CVF Conference of the sion and Pattern Recognition, 2020. PC ViIEEE/CVF Conference of the sion and Pattern Recognition, 2020のグラフベースのProceedingsによる時間分割。
訳抜け防止モード: In temporal segmentation via graph-based Proceedings on Computer ViIEEE / CVF Conference of the sion パターン認識、2020年。
0.87
14024–14034, 2 pages Y.-G. Zamir, R. A. Liu, Laptev, Jiang, G. Toderici, I. J. AcM. 14024-14034, 2 pages Y.-G. Zamir, R. A. Liu, Laptev, Jiang, G. Toderici, I. J. AcM 0.83
Shah, challenge: THUMOS and Sukthankar. Shah, Challenge: THUMOS と Sukthankar。 0.78
R. tion number recognition with a large of classes. R. 多数のクラスとの操作番号の認識。 0.77
http: 2014. http: 2014年。 0.93
//crcv.ucf.edu/THUMO S14/, 2 Brian Simonyan, Will Karen Zhang, Vijayanarasimhan, Chloe Viola, Fabio al. //crcv.ucf.edu/THUMO S14/, 2 Brian Simonyan, Will Karen Zhang, Vijayanarasimhan, Chloe Viola, Fabio al。 0.78
Tim Green, Trevor Back, Paul Natsev, et The kinetics hupreprint arXiv arXiv:1705.06950, man 2017. Tim Green, Trevor Back, Paul Natsev, et The kinetics hupreprint arXiv arXiv:1705.06950, man 2017 0.95
The language and Thomas Serre. 言語とトーマス・セレ(Thomas Serre)。 0.57
Hilde Kuehne, Ali Arslan, of goalsemantics and the of actions: Recovering syntax IEEE conthe of In Proceedings directed activities. Ali Arslan, Hilde Kuehne, Ali Arslan, algoemantics and the of action: Recovering syntax IEEE conthe of In Proceedings directed activities。 0.76
human computer on ference recognition, pattern and vision pages 780–787, 1, 2 2014. of language acThe and T. Serre. 言語 acThe と T. Serre の ference recognition, pattern and vision page 780–787, 1, 2 2014 上の人間コンピュータ。 0.93
H. Kuehne, A. H. Kuehne、A。 0.93
B. Arslan, goal-directed of semantics and tions: syntax Vision and Computer of Proceedings human Pattern Recognition Conference year =. B. Arslan, goal-directed of semantics and tions: syntax Vision and Computer of Proceedings Human Pattern Recognition Conference year = (英語) 0.91
(CVPR), 2 end-toand Thomas Serre. (cvpr) トーマス・セール(thomas serre)。 0.64
Hilde Kuehne, An end generative framework for video segmentation and recogProc. Hilde Kuehne – ビデオセグメンテーションとrecogProcのためのエンドジェネレーティブフレームワーク。 0.60
Applications Vinition. 応用 Vinition。 0.67
sion Conference 2016. 2016年大会開催。 0.72
Christopher A Kurby the sciences, Colin Lea, Austin Reiter, Ren´e Vidal, for cnns Segmental mentation. Christopher A Kurby the Sciences, Colin Lea, Austin Reiter, Ren ́e Vidal, for cnns Segmental mentation。 0.91
7 1, 2, Kay, Joao Hillier, action video 2, 3 7 1, 2, Kay, Joao Hillier, action video 2, 3 0.85
Juergen Gall, IEEE Winter (WACV 16), Juergen Gall, IEEE Winter (WACV 16) 0.75
and Gregory D. Hager. そしてグレゴリー・d・ヘイガー 0.59
segfine-grained Carreira, Sudheendra dataset. セグファイン粒 Carreira, Sudheendra データセット。 0.60
Segmentation in cognitive Trends 認知傾向のセグメンテーション 0.70
and and memory 5 spatiotemporal In ECCV, 2016. そしてメモリ5は spatiotemporal ECCV、2016年。 0.73
Jeffrey M Zacks. ジェフリー・m・ザックス 0.46
of events. ですから イベント。 0.63
Recovering activities. perception 2008. 活動の回復。 2008年の認識 0.70
of Computer the In action コンピュータの 院 アクション 0.61
In 2 in 内 2 で 0.73
英語(論文から抽出)日本語訳スコア
[28] [29] [30] [28] [29] [30] 0.85
[31] [32] [33] [31] [32] [33] 0.85
[34] [35] [36] [34] [35] [36] 0.85
[37] [38] [39] [37] [38] [39] 0.85
[40] [41] [42] [40] [41] [42] 0.85
se- scale networks セ scale ネットワーク 0.74
Gaussian automatic Disvideo and ガウシアン 自動 ディスビデオと 0.63
for computer shift Temporal Proceedings In Computer Vision, コンピュータには コンピュータビジョンにおける時間的手続きのシフト 0.71
and Kristen Grauman. そしてクリステン・グラウマン。 0.60
people egocentric objects vision IEEE conference on 2012. people egocentric objects vision ieee conference on 2012 (英語) 0.74
Yong Jae Lee, Joydeep Ghosh, and covering important summarization. Yong Jae Lee, Joydeep Ghosh, and covered important summarization。 0.79
In recognition, pattern 8 Temporal deformable residPeng Lei and Sinisa Todorovic. 認識では、パターン8一時的な変形可能なresidPeng LeiとSinisa Todorovic。 0.63
In Proceedin videos. segmentation action ual for ings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2 6742–6751, 1, 2018. supervised Sinisa Todorovic. ビデオの進行中。 コンピュータビジョンとパターン認識に関するIEEE会議、ページ2 6742-6751、2018年1月1日のingsのためのセグメンテーションアクションバイアルは、Sinisa Todorovicを監督しました。
訳抜け防止モード: ビデオの進行中。 コンピュータビジョンとパターン認識に関するIEEE Conference ingsのセグメンテーション・アクション・バイアル page 2 6742-6751, 1, 2018 . Sinisa Todorovicを監督。
0.72
and Jun Li, Peng Lei, Weakly In Proceedsegmentation. そしてJun Li, Peng Lei, Weakly In Proceedsegmentation。 0.72
energy-based learning for action IEEE International Conference ings on Computer Vithe of sion, pages 2019. アクションのためのエネルギーベースの学習 IEEE International Conference ings on Computer Vithe of sion, page 2019。 0.90
6243–6251, 2 1, Tsm: Song Han. 6243-6251, 2 1, Tsm: Song Han 0.83
and Chuang Gan, Ji Lin, understanding. そしてChuang Gan, Ji Lin, understanding。 0.73
module for efficient video of the IEEE International Conference on 1 2019. 2019年1月1日のieee国際会議の効率的なビデオ用モジュール。 0.66
7083–7093, pages temZheng Single shot Tianwei Shou. 7083-7093, page temZheng Single shot Tianwei Shou. 0.90
and Zhao, Lin, Xu 2017 ACM on the In Proceedings of action poral detection. そしてZhao, Lin, Xu 2017 ACM on the In Proceedings of action poral detection。 0.70
Multimedia Conference, 988–996. マルチメディア会議、988-996。 0.74
ACM, 1, 2017. ACM、2017年1月1日。 0.68
2 pages and Su, Chongjing Wang, Tianwei Lin, Xu Zhao, Haisheng Bsn: Ming Yang. 2ページ、Su, Chongjing Wang, Tianwei Lin, Xu Zhao, Haisheng Bsn: Ming Yang。 0.76
for network sensitive Boundary tempoconference European on In generation. 世代のネットワーク敏感な境界テンポ会議ヨーロッパのため。 0.78
action ral proposal computer vision, 2018. アクションラル提案コンピュータビジョン、2018。 0.56
1, 2, 7 Feature Tony Lindeberg. 1, 2, 7 トニー・リンデバーグ。 0.72
detection with IJCV, 1998. IJCV、1998との検出。 0.77
6 lection. Long, Fuchen Ting Yao, and Luo, Tao Mei. 6弾。 長い、Fuchen Ting Yao、そしてLuo、Tao Mei。 0.65
for action localization. アクションローカライズのための。 0.48
ence on Computer Vision 2 Jitendra David Martin, Tal, Doron and images Malik. ence on Computer Vision 2 Jitendra David Martin, Tal, Doron and images Malik 0.77
database natural segmented and its application to evaluating segmentation algorithms and In Proceedings Eighth IEEE measuring ecological on Computer Vision, International Conference MaC and Martin, David Charless R lonatural to lik. データベースの自然なセグメンテーションとそのセグメンテーションアルゴリズム評価への応用と、コンピュータビジョン、国際会議MaC、Martin、David Charless Rのエコロジーを計測するIn Proceedings Eighth IEEE 0.75
detect boundaries Learning IEEE transactions on cal brightness, and texture color, analysis and machine pattern 2004. 境界を検出する IEEEトランザクションをカル輝度で学習し、テクスチャカラー、分析、マシンパターン2004。 0.77
3 Detecting Pirsiavash Hamed activities IEEE conof daily living in views. 3 Pirsiavash Hamedアクティビティの検出 IEEEは日々の視点で生活している。 0.68
In ference recognition, computer on 2012. 参照認識では、2012年のコンピュータ。 0.71
8 Parsing Ramanan. Pirsiavash Deva and Hamed Proceedings grammars. 8パースラマナン。 Pirsiavash Deva と Hamed Proceedings 文法。 0.66
segmental with actions In computer on conference IEEE vision and pattern tion, pages 2014. アクションでセグメント化IEEEのビジョンとパターンのコンファレンスでコンピュータで、2014ページ。 0.62
1 612–619, Jeffrey M Zacks, Jeremy R Reynolds, segmentation event computational model of science, Cognitive 2007. prediction. 1 612–619, Jeffrey M Zacks, Jeremy R Reynolds, segmentation event computingal model of science, Cognitive 2007. 予測 0.89
5 Juergen and Hilde Alexander AcKuehne, Richard, tion sets: Weakly supervised action segmentation without orof Proceedings the IEEE Conference constraints. 5 JuergenとHilde Alexander AcKuehne、Richard、tion Set: IEEE Conferenceの制約に従わずに、アクションセグメンテーションを監督する。 0.73
dering In Computer on Vision and Pattern Recognition, 5987– 5996, 2018. dering In Computer on Vision and Pattern Recognition, 5987– 5996, 2018 0.81
1, 2 Yue Dian Shao, inter-action understanding 1, 2Yue Dian Shao, Inter-action understanding 0.93
Fowlkes, image cues. Fowlkes, image cues 0.63
intelligence, and Deva Ramanan. インテリジェンス、そしてデヴァ・ラマナン。 0.55
first-person camera pattern and vision ファーストパーソンカメラのパターンとビジョン 0.71
Xinmei Zhaofan Qiu, awareness temporal of the In Proceedings and Pattern Recognition, Xinmei Zhaofan Qiu, awareness temporal of the Proceedings and Pattern Recognition, (英語) 0.89
Charless Fowlkes, of human statistics. チャールズズ・フクロウクス - イギリスの統計学者。 0.68
Tian, Jiebo networks IEEE Confer1, 2019. Tian, Jiebo network IEEE Confer1, 2019 0.81
and Todd S Braver. そしてトッドSブレイバー。 0.50
A from perceptual perceptual (複数形 perceptuals) 0.44
2001. 3 Jitendra using 2001. 3字天羅使用 0.65
videos of the of recogni- the recogni』のビデオ 0.64
and Dahua temporal そして、Dahua temporal 0.79
Bo Dai, via Intraparsing. 坊代(ぼうだい) イントラパーシング。 0.45
Lin. action and In リン。 アクション そして 0.56
Zhao, pages Gall. Zhao ページ Gall 0.57
A [43] [44] A [43] [44] 0.85
[45] [46] [47] [45] [46] [47] 0.85
[48] [49] [50] [48] [49] [50] 0.85
[51] [52] [53] [51] [52] [53] 0.85
[54] [55] 7 [54] [55] 7 0.85
1 of Cui. 1 ですから クイ。 0.58
Shot and Shih-Fu Chang. ショット そしてShih-Fu Chang。 0.72
and Pattern Recogni- とパターンrecogni- 0.77
Chan, Vetro, action and チャン、ヴェトロ、アクション、そして 0.67
Oncel Tuzel, recurrent neuProceedIn pattern and oncel Tuzel, recurrent neuProceedIn pattern and 0.83
Kazuyuki GiroXavier in detection evaluation. 検出評価におけるGiroXavier一之氏。 0.64
In on Computer Vision IEEE Conference (CVPR), tion 2, 2020. 内 コンピュータビジョンIEEE Conference (CVPR, tion 2, 2020)に登場。 0.70
3, 6, 1, Shao, Hong boundary and Wencheng Yang Qu, detection algorithm based on hsv histogram and hog feature. 3, 6, 1, Shao, Hong, and Wencheng Yang Qu, detection algorithm based on hsv histogram and hog features。 0.77
International Conference 2015 on Advanced Engineering In and Technology. International Conference 2015 on Advanced Engineering In and Technology(英語) 0.92
Atlantis Press, Materials 2015. Atlantis Press, Materials 2015 (英語) 0.80
2 Kazuyuki Zareian, Alireza Chan, Jonathan Zheng Shou, and Chang. 2 カツユキ・ザレイアン、アリレザ・チャン、ジョナサン・Zheng Shou、チャン。 0.49
Miyazawa, Shih-Fu Cdc: Convolutional-deprec ise action for convolutional networks temporal localVision PatIn Computer and ization in untrimmed videos. Miyazawa, Shih-Fu Cdc: Convolutional-deprec ise action for convolutional network temporal localVision PatIn Computer and ization in untrimmed video。 0.90
2017 (CVPR), tern Recognition on, IEEE Conference pages 1, 2017. 2017 (CVPR), tern Recognition on, IEEE Conference page 1, 2017 0.73
1417–1426. 1417–1426. 0.71
IEEE, 2 Zheng Shou, Junting Pan, Jonathan Miyazawa, Hassan Mansour, Anthony Shih-Fu and i Chang. IEEE, 2 Zheng Shou, Junting Pan, Jonathan Miyazawa, Hassan Mansour, Anthony Shih-Fu, i Chang 0.84
Online Nieto, untrimmed, streaming videos-modeling ECCV, 2018. Online Nieto, untrimmed, streaming video-modeling ECCV, 2018 0.87
3 Temporal Zheng Shou, Dongang Wang, action localization in untrimmed videos via multi-stage cnns. 3 Temporal Zheng Shou, Dongang Wang, action localization in untrimmed video via multi-stage cnns。 0.83
In CVPR, 1, 2 2016. CVPR、2016年1月2日。 0.76
Singh, Bharat Jones, Tim K Marks, Michael and Ming Shao. Singh, Bharat Jones, Tim K Marks, Michael and Ming Shao 0.76
A multi-stream bi-directional action ral detection. マルチストリーム双方向アクションラル検出。 0.66
network for fine-grained computer IEEE conference ings vision on the of recognition, 2016. 細かい粒度のコンピュータIEEE会議のためのネットワーク 認識のビジョン、2016年。 0.78
1961–1970, pages 2 Lokoˇc. 1961-1970年、2ページ。 0.63
Souˇcek, Tom´aˇs Jakub Moravec, and Jaroslav common shot fast detection of Transnet: A deep network for arXiv preprint arXiv:1906.03363, 2019. ソウ・セク、トム・モラベック、ジャロスラフ・モラベックはTransnetを高速に検出する: arXiv preprint arXiv:1906.03363, 2019のディープネットワーク。 0.75
2 transitions. Combining emJ McKenna. 2つの変遷。 emJ McKenna の組み合わせ。 0.75
Sebastian Stephen and Stein recognizing bedded accelerometers with computer vision for In Proceedings of the 2013 ACM food preparation activities. Sebastian StephenとSteinは、2013 ACM食品準備活動の進行のためにコンピュータビジョンで寝た加速度計を認識しています。 0.61
joint ubiquitous and international Pervasive conference on computing, pages 2013. 2013年、ユビキタスおよび国際的なコンピューティングに関するコンファレンスであるPervasive Conferenceを開催。 0.60
729–738, 2 Zhanghui Feng, Litong Shitao Kuang, Tang, Fast and Wei Zhang. 729–738, 2 Zhanghui Feng, Litong Shitao Kuang, Tang, Fast and Wei Zhang。 0.90
video shot Asian Conference structured models. video shot asian conference structured models(英語) 0.80
deep In Vision, 577–592. 視野の深い、577-592。 0.70
Springer, pages Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, features with and Manohar the IEEE inter3d convolutional networks. Springer, pages Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, features with and Manohar with the IEEE inter3d convolutional network。 0.90
national 4489–4497, 2015. 2015年、4489-4497頁。 0.48
1 Lorenzo Du Tran, Heng Wang, Jamie Ray, Yann Torresani, and Manohar Paluri. 1 Lorenzo Du Tran、Heng Wang、Jamie Ray、Yann Torresani、Manohar Paluri。 0.68
A closer LeCun, look at spatiotemporal Proceedings the recognition. より近いLeCunでは、時空間のプロセディングが認識する。 0.63
convolutions action for In IEEE Conference and Pattern Recognion Computer Vision tion, 2018. convolutions action for in ieee conference and pattern recognion computer vision tion, 2018(英語) 0.71
6450–6459, pages Barbara Tversky and Jeffrey M Zacks. 6450–6459, pages Barbara Tversky and Jeffrey M Zacks. 1.00
Event perception. Oxford 2013. イベント知覚。 2013年オックスフォード。 0.68
1, 2, Carl Vondrick, Hamed Pirsiavash, and Antonio Torralba. 1, 2, Carl Vondrick, Hamed Pirsiavash, Antonio Torralba。 0.72
AnIn CVPR, ticipating 2016. AnIn CVPR, ticipating 2016。 0.81
5 and L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, good Towards L. Van Gool. 5 と L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, Good Towards L. Van Gool。 0.92
7 practices 2016. for spatiotemporal Learning In Proceedings of vision, computer on pages 2016年は7回。 視覚の進歩における時空間学習, ページ上のコンピュータ 0.64
Yimin Chen, localization with on Computer Yimin Chen, コンピュータによるローカライゼーション 0.72
Paluri. conference transition 2 2018. パウリ。 会議 トランジション2 2018。 0.63
networks: In ECCV, ネットワーク: ECCV。 0.59
segment recognition. Temporal deep action セグメント認識。 時間的深部作用 0.68
handbook 3 handbook 3 0.85
by watching psychology, unlabeled 見ることで 心理学 unlabeled~ 0.71
cognitive 83–94, video. 認知 83–94, ビデオだ 0.69
future pages the 未来 ページ はあ? 0.61
of ですから 0.53
英語(論文から抽出)日本語訳スコア
[56] [57] [58] [56] [57] [58] 0.85
[59] [60] C [59] [60] C 0.85
Stroud, 2 Tong Stroud 2 トン 0.62
Lu, Jia Deng. In sums. ル。 ジア・デン。 総じて。 0.45
Jonathan 1, 2 Zehuan Yuan, and Temporal action localization by structured maximal CVPR, 2017. ジョナサン1,2 Zehuan Yuan, and Temporal action Localization by structured maximal CVPR, 2017 0.66
Jeffrey M Zacks, Nicole K Speer, Khena M Swallow, Todd S Jeremy R Reynolds. Jeffrey M Zacks, Nicole K Speer, Khena M Swallow, Todd S Jeremy R Reynolds 0.78
perception: Event and Braver, a mindPsychological bulletin, 2007. 知覚: イベントとブレイバー、精神心理学の掲示板、2007。 0.59
5 perspective. brain and Torresani, Torralba, Antonio Zhao, Hang Lorenzo clips action Human segments and Zhicheng Yan. 5つの視点。 brain and Torresani, Torralba, Antonio Zhao, Hang Lorenzo clips action Human segments and Zhicheng Yan 0.69
Hacs: Proand In localization. hacs: ローカライゼーションのプロランドです。 0.45
temporal dataset for recognition IEEE International Conference on Computer ceedings of the Vision, pages 2019. IEEE International Conference on Computer ceedings of the Vision, Page 2019の認証のための一時的なデータセット。
訳抜け防止モード: IEEE International Conference on Computer ceedings of the Visionの認識のための時間データセット 2019年。
0.89
8668–8678, Zhirong Wu, Limin Wang, Yuanjun Xiong, Yue Zhao, Xidetection with aoou Tang, and Dahua Lin. 8668-8678、Zhirong Wu、Limin Wang、Yuanjun Xiong、Yue Zhao、Xidetection with aoou Tang、Dahua Lin。
訳抜け防止モード: 8668-8678、Zhirong Wu、Limin Wang、Yuanjun Xiong、Yue Zhao。 aoouの唐とのXidetection、およびDahua Lin。
0.77
Temporal action In ICCV, 1, 2 2017. structured segment networks. 一時的行動 ICCV, 1, 2 2017 構造化セグメントネットワーク。 0.79
Kr¨ahenb¨uhl. 原題はKr sahenb suhl。 0.20
Xingyi and Philipp Koltun, ECCV, 7 2020. XingyiとPhilipp Koltun、ECCV、2020年7月。 0.81
Tracking Zhou, objects Vladlen as points. 追跡 周、物 点としてVladlen。 0.58
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。