論文の概要、ライセンス

# (参考訳) conflab: 自由参加型ソーシャルインタラクションのためのリッチなマルチモーダルマルチセンサーデータセット [全文訳有]

ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social Interactions In-the-Wild ( http://arxiv.org/abs/2205.05177v1 )

ライセンス: CC BY 4.0
Chirag Raman, Jose Vargas-Quiros, Stephanie Tan, Ekin Gedik, Ashraful Islam, Hayley Hung(参考訳) コンファレンス・リビング・ラボ(ConfLab)の形で,マルチモーダル・マルチセンサ・データ収集のための新たな概念の創出について述べる。 ConfLabには、国際会議でのさまざまなステータス、知り合い、ネットワークモチベーションを捉えた、49人の忠実度の高いデータが含まれている。 このようなデータセットの記録は、参加者のプライバシーとデータの忠実性の間の微妙なトレードオフと、関連する技術的およびロジスティックな課題のために難しい。 8カメラのオーバーヘッド設定、体の動きを記録する個人用ウェアラブルセンサー(9軸IMU)、Bluetoothベースの近接、低周波オーディオなどです。 さらに,身体のキーポイントや動作を高頻度でアノテートするために,最先端のハードウェア同期ソリューションと時間効率の連続手法を用いる。 我々は、我々の改善はより細かい時間スケールでの相互作用ダイナミクスのより深い研究に不可欠であると主張している。 当社の研究タスクでは,プライバシ保護型ソーシャルデータ分析に関するオープン課題として,オーバーヘッドカメラからのキーポイント検出,スケルトンベース非オーディオ話者検出,fフォーメーション検出などが紹介されている。 ConfLabデータセットでは、従来のコンピュータビジョンタスクと、社会的に動機づけられたタスクの幅を埋めることを目的としています。

We describe an instantiation of a new concept for multimodal multisensor data collection of real life in-the-wild free standing social interactions in the form of a Conference Living Lab (ConfLab). ConfLab contains high fidelity data of 49 people during a real-life professional networking event capturing a diverse mix of status, acquaintanceship, and networking motivations at an international conference. Recording such a dataset is challenging due to the delicate trade-off between participant privacy and fidelity of the data, and the technical and logistic challenges involved. We improve upon prior datasets in the fidelity of most of our modalities: 8-camera overhead setup, personal wearable sensors recording body motion (9-axis IMU), Bluetooth-based proximity, and low-frequency audio. Additionally, we use a state-of-the-art hardware synchronization solution and time-efficient continuous technique for annotating body keypoints and actions at high frequencies. We argue that our improvements are essential for a deeper study of interaction dynamics at finer time scales. Our research tasks showcase some of the open challenges related to in-the-wild privacy-preserving social data analysis: keypoints detection from overhead camera views, skeleton based no-audio speaker detection, and F-formation detection. With the ConfLab dataset, we aim to bridge the gap between traditional computer vision tasks and in-the-wild ecologically valid socially-motivated tasks.
公開日: Tue, 10 May 2022 21:30:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] M M . s c [ ] M . sc [ 0.33
1 v 7 7 1 5 0 1 v 7 7 1 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
ConfLab: A Rich Multimodal Multisensor Dataset of ConfLab: リッチなマルチモーダルマルチセンサデータセット 0.49
Free-Standing Social Interactions In-the-Wild フリースタンディング型ソーシャルインタラクション 0.63
Chirag Raman1∗ Chirag Raman1∗ 0.35
Jose Vargas-Quiros1∗ Jose Vargas-Quiros1∗ 0.25
Stephanie Tan1∗ ステファニー・タン1* 0.34
Ekin Gedik1 Ekin Gedik1 0.44
Ashraful Islam2 アシュラフルイスラム2 0.53
Hayley Hung1 {c.a.raman, j.d.vargasquiros, s.tan-1, e.gedik, h.hung}@tudelft.nl ヘイリーハング1 c.a.raman, j.d.vargasquiros, s.tan-1, e.gedik, h.hung}@tudelft.nl 0.42
1Delft University of Technology, Delft, The Netherlands オランダのデルフトにある1Delft University of Technology 0.78
2Rensselaer Polytechnic Institute, New York, USA 2Rensselaer Polytechnic Institute, New York, USA (英語) 0.77
islama6@rpi.edu islama6@rpi.edu 0.34
Abstract We describe an instantiation of a new concept for multimodal multisensor data collection of real life in-the-wild free standing social interactions in the form of a Conference Living Lab (ConfLab). 概要 コンファレンス・リビング・ラボ(ConfLab)の形で,マルチモーダル・マルチセンサ・データ収集のための新たな概念の創出について述べる。
訳抜け防止モード: 概要 実生活におけるマルチモーダルマルチセンサデータ収集のための新しい概念のインスタンス化について述べる。 --- カンファレンスリビングラボ(ConfLab)という形での、ワイルドなフリースタンドングなソーシャルインタラクション。
0.56
ConfLab contains high fidelity data of 49 people during a real-life professional networking event capturing a diverse mix of status, acquaintanceship, and networking motivations at an international conference. ConfLabには、国際会議でのさまざまなステータス、知り合い、ネットワークモチベーションを捉えた、49人の忠実度の高いデータが含まれている。 0.64
Recording such a dataset is challenging due to the delicate trade-off between participant privacy and fidelity of the data, and the technical and logistic challenges involved. このようなデータセットの記録は、参加者のプライバシーとデータの忠実性の間の微妙なトレードオフと、関連する技術的およびロジスティックな課題のために難しい。 0.60
We improve upon prior datasets in the fidelity of most of our modalities: 8-camera overhead setup, personal wearable sensors recording body motion (9-axis IMU), Bluetooth-based proximity, and low-frequency audio. 8カメラのオーバーヘッド設定、体の動きを記録する個人用ウェアラブルセンサー(9軸IMU)、Bluetoothベースの近接、低周波オーディオなどです。
訳抜け防止モード: モダリティの大部分の忠実度における先行データセットの改善 : 8カメラオーバーヘッド設定, 体の動き(9軸IMU)、Bluetoothベースの近接センサー そして低周波数オーディオ。
0.74
Additionally, we use a state-of-the-art hardware synchronization solution and timeefficient continuous technique for annotating body keypoints and actions at high frequencies. さらに、最新のハードウェア同期ソリューションと、ボディキーポイントやアクションを高頻度でアノテートするための時間効率連続手法を用いる。 0.71
We argue that our improvements are essential for a deeper study of interaction dynamics at finer time scales. 我々は、我々の改善はより細かい時間スケールでの相互作用ダイナミクスのより深い研究に不可欠であると主張している。 0.62
Our research tasks showcase some of the open challenges related to in-the-wild privacy-preserving social data analysis: keypoints detection from overhead camera views, skeleton based no-audio speaker detection, and F-formation detection. 当社の研究タスクでは,プライバシ保護型ソーシャルデータ分析に関するオープン課題として,オーバーヘッドカメラからのキーポイント検出,スケルトンベース非オーディオ話者検出,fフォーメーション検出などが紹介されている。 0.67
With the ConfLab dataset, we aim to bridge the gap between traditional computer vision tasks and in-the-wild ecologically valid socially-motivated tasks. ConfLabデータセットでは、従来のコンピュータビジョンタスクと、社会的に動機づけられたタスクの幅を埋めることを目的としています。 0.53
1 Introduction In this paper, we address the problem of collecting a privacy-sensitive dataset to enable the study of the unscripted social dynamics of real life relationships in-the-wild. 1 はじめに 本稿では,プライバシに敏感なデータセットを収集することで,実生活関係の非記述的社会的ダイナミクスの研究を可能にする。 0.56
We focus specifically on social networking settings where people are free to move around and leave or join a conversation as they please (see Figure 1). 私たちは特に、人々が自由に動き回ったり、好きなように会話に参加したりできるソーシャルネットワーキングの設定にフォーカスしています(図1参照)。
訳抜け防止モード: 私たちは特に、人々が自由なソーシャルネットワークの設定に焦点を当てています。 動き回ったり 離れたり 会話に参加したり (図1参照)。
0.74
The majority of data that captures and allows for the study of group dynamics in social interactions have focused on role-played settings in custom-built instrumented lab environments [1, 2]. ソーシャルインタラクションにおけるグループダイナミクスの研究を可能にするデータの大部分は、カスタム構築された実験室環境 [1, 2] におけるロールプレイされた設定に焦点を当てている。 0.67
While such work was an invaluable first step for the automated analysis of social signals, we argue that the next steps in advancing the study of social human behavior involves the recording of the unconstrained social dynamics of in-the-wild behavior at a fidelity comparable to the instrumented lab environments. このような研究は、社会的信号の自動分析のための重要な第一歩であったが、社会人行動の研究を進める次のステップは、実験室の環境と同等の忠実さで、非拘束の社会的行動のダイナミクスを記録することであると論じている。 0.74
As such, the study of more real-life, dynamic, and crowded free standing conversational scenes beyond the lab has gained interest in the last decade [3–7]. そのため、ラボ以外の現実的な、ダイナミックで、混雑する自由な会話シーンの研究は、この10年[3-7]で関心を集めている。 0.63
∗Equal contribution Preprint. ∗平等貢献 プレプリント。 0.70
Under review. レビュー中。 0.58
英語(論文から抽出)日本語訳スコア
Figure 1: Snapshot of interaction area from our cameras. 図1: カメラからのインタラクションエリアのスナップショット。 0.68
We annotated only cameras highlighted with red borders (high scene overlap). 私たちは、赤い境界(高いシーンオーバーラップ)で強調されたカメラだけに注釈を付けました。 0.51
For a clearer visual impression of the scene, we omit 1 (few people recorded) and 5 (failed early in the event). シーンの視覚的な印象としては、1人(録音された人)と5人(イベントの早い段階で失敗した)を省略する。 0.61
Faces blurred to preserve privacy. プライバシーを守るために顔がぼやけた。 0.54
Existing datasets of in-the-wild social behavior (see Table 1) suffer from specific drawbacks preventing the analysis and modeling of fine-grained behavior: 既存の社会的行動のデータセット(表1参照)は、きめ細かい行動の分析とモデリングを妨げる特定の欠点に苦しむ。 0.79
(i) they lack articulated pose information in the form of body keypoints; (i)ボディキーポイントという形でのポーズ情報がないこと。 0.67
(ii) the number of people in the scene is too limited to capture and study complex interactions, and (ii)複雑な相互作用を捉えて研究するには現場の人数が限られすぎており、 0.78
(iii) the sampling rate of the provided manual annotations is too low to capture the complex dynamics of the key social phenomena [8, Sec. 3.3]. (iii) 提供された手動アノテーションのサンプリングレートは, 重要な社会現象 [8, sec. 3.3] の複雑なダイナミクスを捉えるには低すぎる。 0.76
Some of these drawbacks—especially related to articulated pose—exist due to an inherent trade-off between having a well-instrumented recording setup to capture high-fidelity data and preserving participant privacy as well as the ecological validity (real life naturalness) [9–11] of the interaction in-the-wild, which entails having a non-invasive sensor setup. これらの欠点のいくつかは、特に明瞭なポーズに関係しており、高い忠実度データをキャプチャし、参加者のプライバシーを保ちつつ、非侵襲的なセンサー設定を伴う対話の生態学的妥当性(実生活の自然性) [9–11] を保ちながら、優れた記録設定を持つこととのトレードオフが原因である。 0.55
For video, this has been addressed by mounting cameras overhead in a top-down perspective [5, 7]. ビデオでは、カメラをトップダウンの視点で[5, 7]マウントすることで、この問題に対処している。 0.65
However, state-of-the-art body keypoint estimation techniques trained on frontal or elevated side views do not perform well on top-down perspectives due to the heavy interpersonal occlusion [7, 12], preventing the automatic extraction of keypoint annotations. しかし,前側または高側からの視点で訓練された最先端の身体的キーポイント推定手法は,対人的オクルージョンが重く,キーポイントアノテーションの自動抽出が防止されるため,トップダウンの視点ではうまく機能しない。 0.66
As a result, prior datasets have provided manual annotations for head or body bounding boxes rather than keypoints, which entails a much larger annotation overhead. その結果、以前のデータセットでは、キーポイントよりもヘッドやボディバウンディングボックスに手動でアノテーションを提供しており、アノテーションのオーバーヘッドははるかに大きい。 0.62
To address these limitations, we propose the Conference Living Lab (ConfLab): a high fidelity dataset of 49 socially interacting people during a professional networking event. これらの制限に対処するために、プロフェッショナルなネットワーキングイベント中に49人の社会的相互作用を持つ人々の高忠実度データセットである Conference Living Lab (ConfLab) を提案する。 0.64
Concretely, our following technical contributions (see Table 1 open the gateway to a wide range of multimodal and crossmodal behavior tasks, of importance to various fields including machine learning, social psychology, and social signal processing. 具体的には、以下に示す技術貢献(表1参照)は、機械学習、社会心理学、社会信号処理など、幅広い分野において重要となる多モーダルおよび多モーダルな行動タスクへの入り口を開くものである。
訳抜け防止モード: 特に、以下の技術的貢献(表1参照)は、幅広いマルチモーダルおよびクロスモーダルな動作タスクへのゲートウェイを開きます。 機械学習や社会心理学など 様々な分野において 社会信号処理です
0.73
(i) Articulated pose: annotations of 17 full-body keypoints, enabling improvements in (i)明瞭なポーズ:17のフルボディキーポイントのアノテーションにより、改善が可能 0.67
(a) pose estimation and tracking in-the-wild, (a)被写体内におけるポーズ推定と追跡 0.68
(b) pose-based recognition of social actions (unexplored in the top-down perspective), (b)ポーズに基づく社会的行動の認識(トップダウン視点で未調査) 0.84
(c) pose-based F-formation estimation, which has not been possible using previous datasets and methods [5, 13–15], and (c)以前のデータセットと手法 [5, 13–15] では不可能であったポーズに基づくf-formation推定 0.87
(d) the direct study of interaction dynamics using full body poses (previously limited to lab settings [1]). (d)全身ポーズを用いた相互作用ダイナミクスの直接研究(従来は実験室の設定に限られていた[1])。 0.81
(ii) Subtle body dynamics: first inclusion of a full 9-axis Inertial Measurement Unit (IMU) for improved capture body dynamics at higher rates. (II) サブトルボディーダイナミクス: フル9軸慣性測定ユニット(IMU)を初搭載し、高い速度で捕捉ボディーダイナミクスを向上する。 0.73
Previous rates were found to be insufficient for downstream tasks [16]. ダウンストリームタスク [16] では, 従来は不十分であった。 0.60
(iii) Enabling finer temporal-scale research questions: a sub-second expected crossmodal latency of 13 ms for the first time along with higher sampling rate of features (60 fps video, 56 Hz IMU) enables the in-the-wild study of nuanced time-sensitive social behaviors like mimicry and synchrony which need tolerances as low as 40 ms [see 8, Sec. 3.2]. (iii)より細かい時間的スケールの研究質問を可能にする: 秒未満のクロスモーダルレイテンシが初めて13msで、高いサンプリングレート(60fpsビデオ、56hz imu)とともに、40ms以下の耐性を必要とする模倣や同期のようなニュアンスに敏感な社会的行動について、内部で調査することができる(第8条3.2参照)。 0.68
Prior works coped with lower tolerances by windowing their inputs [16–18]. 以前の作品は、入力[16–18]をウィンドウ化することで、より低い耐性に対処した。 0.49
To enable these technical improvements, as part of the ConfLab endeavour we developed specific methods for cross modal synchronization [8] and continuous video annotation [19] that have been published separately. これらの技術的改善を実現するため、ConfLabの取り組みの一環として、別々に公開されたクロスモーダル同期[8]と連続ビデオアノテーション[19]の具体的な方法を開発した。 0.68
Beyond these technical considerations, ConfLab captures a diverse mix of levels of seniority, acquaintanceship, affiliation, and motivation to network (see Figure 2). これらの技術的な考慮を超えて、conflabは、高齢者、知人、親交、ネットワークへの動機付けのさまざまなレベルを捉えている(図2参照)。 0.54
This was achieved by organizing the data collection as part of an international scientific conference specialized in signal processing and machine learning (ACM Multimedia 2019). これは、信号処理と機械学習に特化した国際科学会議(acm multimedia 2019)の一部としてデータ収集を組織化することで達成された。 0.68
ConfLab fulfilled different broad goals: ConfLabはさまざまな目標を達成しました。 0.54
(i) a data collection that was by the community and for the community: the more volunteers, the more data, i) コミュニティとコミュニティが収集したデータ: ボランティアが多ければ多いほど、データが増えます。 0.66
(ii) allowed potential users of the data who also donated their social behavior to experience first-hand (二)自己体験に社会行動も寄付した潜在的なデータの利用を許可する 0.78
Figure 2: Distribution of newcomer/veteran participants (left) and their research interests (right) in percentage. 図2: 新参者/獣医参加者(左)とその研究関心(右)の割合の分布。 0.73
2 2 0.42
英語(論文から抽出)日本語訳スコア
Table 1: Comparison of ConfLab with existing datasets of free-standing conversation groups in in-the-wild social interaction settings. 表1: conflabとフリースタンディング会話グループの既存のデータセットの比較。 0.55
Conflab is the first and only social interaction dataset that offers skeletal keypoints and speaking status at high annotation resolution, as well as hardware synchronized camera and multimodal wearable signals at high resolution. Conflabは、ハードウェア同期カメラとマルチモーダルウェアラブル信号の高解像度化に加えて、骨格キーポイントと発話ステータスを高解像度で提供する、初めてかつ唯一のソーシャルインタラクションデータセットである。 0.73
Dataset People/ Scene データセット 人/場面 0.64
Video Manual Annotations ビデオ 手動アノテーション 0.72
Wearable Signals Synchronization ウェアラブル信号 同期 0.66
Cocktail [3]† カクテル(カクテル)。 0.53
7 512 × 384 7 512 × 384 0.42
F-formations (20 and 30 min, 1/5 Hz) F形(20分30分1/5Hz) 0.81
CoffeeBreak [4] コーヒーブレイク[4] 0.82
14 1440 × 1080 14 1440 × 1080 0.42
F-formations (130 frames in two sequences) F-formations (130 frames in two sequences) 0.48
IDIAP [5] > 50 IDIAP[5] > 50 0.42
180 min; 654 × 439 180分、654×439 0.65
20 fps F-formations (82 independent frames) 20fps F (複数形 Fs) 0.44
None None None Unknown なし なし なし 不明 0.66
None None 60 min; 1024 × 768 なし なし 60分 1024 × 768 0.55
15 fps 30 min; 15fps。 30分 0.41
1920 × 1080 1920 × 1080 0.42
30 fps Bounding boxes (30 min) Head & body ori. 30fps バウンディングボックス(30分) ヘッド&ボディオリ。 0.51
(30 min) F-formations (60 min) (all 1/3 Hz) Bounding boxes (30 min, 1 Hz ‡ ) F-formations (10 min, 1 Hz ) Actions (45 min, 1 Hz‡) (30分) F-formations (60 min) (all 1/3 Hz) バウンディングボックス (30 min, 1 Hz) F-formations (10 min, 1 Hz ) Actions (45 min, 1 Hz ) 0.65
Audio MFCCs (30 Hz) Acceleration (20 Hz) IR proximity (1 Hz) オーディオ MFCC (30 Hz) 加速度 (20 Hz) IR 近接 (1 Hz) 0.84
Post-hoc infra-red event-based (no-drift assumption) ポストホック赤外イベントベース(非ドリフト仮定) 0.57
Accelerometer (20 Hz) Radio proximity (1 Hz) 加速度計(20Hz)無線近接(1Hz) 0.38
SALSA [6]† SALSA [6]! 0.30
MnM [7]† mnm (複数形 mnms) 0.38
ConfLab 18 ConfLab 18 0.43
32 48 Intra-wearable sync via gossiping protocol; Inter-modal sync using manual inspection @1 Hz Wireless hardware sync at acquisition, max latency of ∼ 13 ms [8] 32 48 Gossipingプロトコルによるウェアラブル内同期; 手動検査によるモード間同期 @1 Hz 無線ハードウェア同期取得時の同期、最大遅延は13ミリ秒[8] 0.55
∼ 45 min; 1920 × 1080 ∼ 45 min; 1920 × 1080 0.42
60 fps 17 keypoints (16 min, 60 Hz) F-formations (16 min, 1 Hz) Speaking status (16 min, 60 Hz) 60fps 17個のキーポイント (16 , 60 Hz) F-formations (16 , 1 Hz) 話し状態 (16 , 60 Hz) 0.58
Low-freq. audio (1200 Hz) BT proximity (5 Hz) 9-axis IMU (56 Hz) 低周波数。 オーディオ(1200Hz)BT近接(5Hz)9軸IMU(56Hz) 0.62
† Includes self-assessed personality ratings ‡ Upsampled to 20 Hz by Vatic tool [22] バティックツールで20hzにアップサンプリングした自己評価パーソナリティ評価 [22] 0.56
and reflect on the potential privacy and ethical issues of sharing their data, (iii) enabled high fidelity but privacy-preserving sensing as an integral part of the decision-making on what data to collect. そして、データの共有という潜在的なプライバシーと倫理的問題を反映して、(iii)データの収集に関する意思決定の不可欠な部分として、高い忠実さとプライバシー保護のセンシングを可能にした。 0.59
Specifically, we chose not use common approaches such as egocentric vision [20] or side-elevated viewpoints where facial behavior can be easily analyzed [3, 6, 21], and recorded at a frequency of 1200 Hz to mitigate extraction of the verbal content of speech, resulting in a fully General Data Protection and Regulation (GDPR) compliant multimodal recording setup. 具体的には、エゴセントリックな視覚[20]や、顔の動きを解析し易い側近の視点(3, 6, 21]といった一般的なアプローチを使用せず、1200Hzの周波数で記録することで、音声の音声内容の抽出を緩和し、GDPR準拠の汎用データ保護・規制(GDPR)準拠のマルチモーダル記録装置を実現する。 0.73
The richness of fine-grained temporal information, coupled with the unique social context, makes ConfLab a valuable first step in developing technologies to help people understand and potentially improve their social behavior. 微粒な時間情報の豊かさと、ユニークな社会的文脈が組み合わさって、ConfLabは人々が社会的行動を理解し、潜在的に改善する技術を開発するための貴重な第一歩となる。 0.62
2 Related Work Many prior efforts have tried to analyze social behavior captured at a distance (see [21] for a review). 2 関連作業 多くの先行した取り組みは、遠くで捕獲された社会的行動を分析しようと試みてきた(レビューは[21]を参照)。
訳抜け防止モード: 2 関連作業 これまで多くの努力が試みられ 遠隔で捉えた社会的行動を解析する(レビュー用[21]参照)。
0.79
The main aim of these prior works was to capture not only social interactions but also the social structure of a community [23]. これらの先行研究の主な目的は、社会的相互作用だけでなく、コミュニティの社会的構造も捉えることである[23]。 0.80
Early efforts recorded at real life events had either recordings spanning for only a few minutes (e g the Coffee Break dataset [4]), or recorded at such a large distance from the participants that performing robust automated person detection or tracking with state-of-the-art approaches was non-trivial(e g the Idiap Poster Data [5]). 実生活のイベントで記録された初期の取り組みは、わずか数分の録音(コーヒーブレイクデータセット[4]など)か、参加者から遠く離れた場所で記録された、堅牢な自動人物検出や最先端のアプローチによる追跡は、非自明なものではなかった(例えば、idiapのポスターデータ[5])。 0.73
In recent years, two different strategies have emerged to circumvent this issue. 近年、この問題を回避するための2つの異なる戦略が出現している。 0.67
One approach was to move back to a fully instrumented lab with a high-resolution multi-camera setup where state-of-the-art 3D head pose estimation could be applied [24, 25] to generate behavioral features. 1つのアプローチは、最先端の3Dヘッドポーズ推定を [24, 25] 適用して行動特性を生成できる、高解像度のマルチカメラ構成の完全な実験室に戻すことである。 0.74
This circumvented the costly problem of manually labeling head poses but at the cost of allowing more portable ad-hoc sensing setups. これは手作業によるヘッドポーズのラベリングというコストのかかる問題を回避したが、よりポータブルなアドホックセンシング設定を可能にするためにコストがかかる。 0.45
The benefit of the highly instrumented lab-based setup is that it allowed researchers to focus on novel research questions related to down stream tasks of a more social nature. この高度に計測されたラボベースのセットアップの利点は、研究者がより社会的性質のダウンストリームタスクに関連する新しい研究問題に集中できることだ。 0.76
ConfLab moves out of the lab with a more portable, modular, multimodal and multi-sensor solution that scales easily. ConfLabは、よりポータブルでモジュール化され、マルチモーダルでマルチセンサーのソリューションで、簡単にスケールすることができる。 0.71
Another approach exploited wearable sensor data to allow for multimodal processing—sensors included 3 or 6 DOF inertial measurement units (IMU); infrared, bluetooth, or radio sensors to measure proximity; or microphones for speech behavior [6, 7]. 別のアプローチでは、ウェアラブルセンサーデータを利用してマルチモーダル処理を可能にした — センサーには、3つまたは6つのdof慣性測定ユニット(imu)、近接を測定するための赤外線、bluetooth、無線センサ、音声行動のためのマイクロホン [6, 7]。 0.65
For the case of the sociometric badge used by the SALSA data, proximity data has been used as a proxy of face-to-face interaction, but recent findings highlight significant problems with their accuracy [26]. SALSAデータを用いた社会測定バッジでは、近接データが対面インタラクションのプロキシとして使用されているが、近年の知見は、その精度に関する重要な問題 [26] を浮き彫りにしている。 0.70
ConfLab enables more robust models to be developed to conceptualize and detect social involvement. ConfLabは、より堅牢なモデルを開発し、社会的関与を概念化し、検出することを可能にする。 0.48
The use of the 3 利用方法 3 0.38
英語(論文から抽出)日本語訳スコア
Chalcedony badges mentioned in the MatchNMingle dataset show more promising results using their radio-based proximity sensor and acceleration data [27]. MatchNMingleデータセットに記載されているChalcedonyバッジは、無線ベースの近接センサと加速度データ[27]を使用して、より有望な結果を示す。 0.53
However, they are still far away from performing sufficiently for more downstream tasks due to the relatively low sample frequency (20Hz) and annotation frequency (1Hz) [16]. しかし、比較的低いサンプル周波数 (20Hz) とアノテーション周波数 (1Hz) [16] のため、より下流のタスクに対して十分な性能を発揮するには程遠い。 0.74
Importantly, while both SALSA [6] and MatchNMingle [7] capture a multimodal dataset of a large group of individuals involved in mingling behavior, the inter-modal synchronization is only guaranteed at 1/3 Hz and 1 Hz, respectively. 重要なことは、SALSA [6] と MatchNMingle [7] が混合行動に関わる多数の個人のマルチモーダルデータセットをキャプチャする一方で、モード間同期は、それぞれ1/3Hzと1Hzでしか保証されない。 0.73
While 1 Hz is able to capture some of the social interaction dynamics observed in conversations [28], it is insufficient to study fine-grained social phenomena such as back-channeling or mimicry that involve far lower latencies [8, Sec. 3.3]. 1Hzは会話で観察される社会的相互作用のダイナミクス(28)を捉えることができるが、より低いレイテンシ(8, Sec.3]を含むバックチャネルや模倣のようなきめ細かい社会現象の研究は不十分である。 0.73
ConfLab provides data streams with higher sampling rates, synchronized using a state-of-the-art portable multi-sensor recording technique shown to be within 13 ms latency at worst [8] (see Sec. 3.1). ConfLabは、最先端のポータブルマルチセンサー記録技術を使って同期したサンプリングレートの高いデータストリームを、最悪の[8]で13ミリ秒以内で提供する(Sec.1参照)。 0.63
Table 1 summarizes the differences between ConfLab and other datasets of real-life mingling events. 表1は、ConfLabと実際のミキシングイベントのデータセットの違いをまとめたものです。 0.63
Parallel to the in-the-wild work mentioned above, there have also been considerable efforts in more controlled lab-based experiments with high-quality audio and video data. 上述したように、高品質なオーディオおよびビデオデータを用いたより制御されたラボベースの実験にもかなりの努力が払われている。 0.60
Notable examples of these role-played conversations have included seated scenarios such as the AMI meeting corpus [2] or the more recent standing scenarios of the Panoptic Dataset [1]. これらのロールプレイされた会話の顕著な例としては、AMIミーティングコーパス[2]や、より最近のPanoptic Dataset [1]のような座ったシナリオがある。 0.69
Both datasets enabled breakthroughs in the learning of multimodal conversational dynamics which can inform the behaviors observed in complex conversational scenes. 両方のデータセットは、複雑な会話シーンで観察される振る舞いを知らせるマルチモーダルな会話ダイナミクスの学習におけるブレークスルーを可能にした。 0.59
However, the dynamics of seated, scripted, or role-playing scenarios are different from that of our social setting and are likely to contain unwanted biases related to the artificial nature of the setting. しかし、座型、台本型、ロールプレイングシナリオのダイナミクスは、我々の社会的設定と異なり、設定の人工的性質に関連する望ましくないバイアスを含む可能性が高い。 0.71
There have also been related efforts in the wearable and ubiquitous computing community carrying out extensive analysis of real-life face-to-face social networks. また、ウェアラブルおよびユビキタスコンピューティングコミュニティにおいて、現実の対面ソーシャルネットワークを広範囲に分析する取り組みも行われている。 0.68
However, they have typically focused on longer-term analysis of social networks over days, weeks, or months but using lower resolution proxies for interaction. しかし、彼らは通常、数日、数週間、または数ヶ月にわたって、ソーシャルネットワークの長期的な分析に焦点を当ててきた。 0.61
Typically simple processing of infrared or Bluetooth sensing is assumed to be sufficient to be a proxy for face-to-face interaction [29–32]. 通常、赤外線またはbluetoothセンシングの単純な処理は、対面インタラクション [29-32] のプロキシとして十分なと仮定される。 0.72
In practice, findings from social science indicate that the popular Sociometric badge performs poorly at social interaction detection for short-term social interaction analysis where performance robustness is required [26]. 実のところ,社会科学の知見から,社会的相互作用検出における社会的相互作用検出能力の低下が示唆される[26]。 0.64
Unfortunately, improved wearables that detect proximity such as the OpenBeacon badge show high precision but poor recall [33]. 残念ながら、OpenBeaconバッジのような近接を検知するウェアラブルは、精度は高いがリコールは乏しい[33]。 0.62
Such errors can have a significant impact on the machine-perceived experience of an individual, precluding the development of personalized technology. このようなエラーは、個人のマシン知覚経験に大きな影響を与え、パーソナライズされた技術の発展を妨げます。 0.70
ConfLab enables researchers in these disciplines to also investigate the benefit of exploiting both visual and wearable modalities for richer social behavior studies. conflabを使えば、これらの分野の研究者は、より豊かな社会行動研究のために視覚とウェアラブルの両方のモダリティを利用する利点を調査できる。 0.51
3 Data Acquisition In this section we describe the considerations for designing and collecting an interaction dataset in the wild, to serve as a template and case study for similar future efforts. 3 データ取得 本稿では,対話データセットの設計と収集について考慮し,テンプレートとしての役割と,同様の今後の取り組みのケーススタディについて述べる。 0.77
3.1 Cameras and Wearable Sensors Setup 3.1 カメラとウェアラブルセンサー 0.85
The interaction area was recorded by 14 GoPro Hero 7 Black video cameras (60fps, 1080p, Linear, NTSC) with audio (48 kHz) [34]. 相互作用領域は14台のgopro hero 7ブラックビデオカメラ(60fps、1080p、リニア、ntsc)とオーディオ(48khz)[34]で記録された。 0.78
10 cameras were placed directly overhead at 1 m intervals, with 4 cameras (not shared due to privacy reasons) at the corners providing an elevated-side-view perspective. 10台のカメラが1m間隔で直上に配置され、4台のカメラ(プライバシー上の理由から共有されていない)が角に置かれている。 0.64
For the interaction area of 10 m × 5 m and the given height of the room (∼ 3.5 m), we found that 10 overhead cameras provided a suitable amount of overlap in the field of views. 10m×5mの相互作用面積と部屋の高さ(3.5m)について,10台のオーバーヘッドカメラが視野領域において適切な重なりを与えることがわかった。 0.72
For capturing multimodal data streams, we designed a custom wearable multi-sensor pack called the Midge2, based on the open-source Rhythm Badge designed for office environments [35]. マルチモーダルデータストリームをキャプチャするために,オフィス環境向けに設計されたオープンソースのRhythm Badgeをベースとした,Midge2と呼ばれるカスタムウェアラブルマルチセンサパックを設計した[35]。 0.66
We improved upon the Rhythm Badge in 3 ways: enabling higher audio recording frequency with an on-board switch to allow physical selection between high and low frequency; adding a 9-axis IMU to record pose; and an on-board SD card to directly store raw data, avoiding typical issues related to packet loss during wireless data transfer. 我々はRhythm Badgeを3つの方法で改善した: オンボードスイッチで高周波数と低周波数の物理的選択を可能にする; ポーズに9軸IMUを追加する; オンボードSDカードで生データを直接保存する; 無線データ転送時のパケットロスに関する典型的な問題を回避する。 0.80
During the event, each participant wore a Midge around their neck like a conference badge. イベント中、各参加者はカンファレンスバッジのように首にミッジを着用しました。 0.66
The benefit of using this over smart phones is that it allows for a grab-and-go setup. スマートフォンでこれを使う利点は、それをつかんで設定できることだ。 0.64
IMUs combine three tri-axial sensors: an accelerometer, a gyroscope, and a magnetometer. IMUは加速度計、ジャイロスコープ、磁気計の3つの3軸センサーを組み合わせている。 0.63
These measure acceleration, orientation, and angular rates respectively. これらはそれぞれ加速度、向き、角速度を測定する。 0.65
The sensor information is combined on-chip by a Digital Motion Processor. センサ情報はデジタルモーションプロセッサによってオンチップに結合される。 0.77
Rough proximity estimation is performed by measuring the その測定により粗近接推定を行う 0.85
2https://github.com/ Jerzeek/spcl_midge_h ardware 2https://github.com/ Jerzeek/spcl_midge_h ardware 0.14
4 4 0.42
英語(論文から抽出)日本語訳スコア
Received Signal Strength Indicator (RSSI) for Bluetooth packets broadcast every second (1 Hz) by every Midge. Bluetoothパケットの受信信号強度指標 (RSSI) は、ミッジ毎に毎秒 (1 Hz) 放送される。 0.81
During the event, IMUs were set to record at 50 Hz. イベント中、IMUは50Hzで記録される予定だった。 0.76
We chose to record audio at 1200 Hz to mitigate extraction of verbal content while still ensuring robustness to cocktail party noise. 我々は、音声を1200Hzで録音し、音声の抽出を軽減しつつ、カクテルパーティーノイズに対する堅牢性を確保した。 0.65
See the Appendix A for calibration details and the datasheet for images of the setup. キャリブレーションの詳細はAppendix A、セットアップのイメージはデータシートを参照してください。 0.72
3.2 Synchronizing Sensors at Acquisition 3.2 取得時の同期センサ 0.71
Widely used human behavior datasets are synchronized by maximizing similarity scores around manually identified common events in data streams, such as infrared camera detections [6], or speech plosives [36]. 広範に使用されている人間の行動データセットは、赤外線カメラ検出 [6] や音声プロシーブ [36] などのデータストリームにおいて、手動で特定された共通イベントに関する類似度スコアを最大化することにより同期される。 0.63
While recordings in lab settings can allow for fully wired recording setups, recording in the wild requires a distributed wireless solution. 実験室での録音は完全有線記録の設定を可能にするが、野生での録音には分散無線ソリューションが必要である。 0.65
To synchronize the cameras and wearable sensors directly at acquisition while lowering the cost of the recording setup, we developed a a method published separately [8]. 記録装置のコストを下げつつ、取得時にカメラとウェアラブルセンサーを直接同期させる手法を別々に開発した[8]。
訳抜け防止モード: 記録装置のコストを低減しつつ、取得時にカメラとウェアラブルセンサを直接同期させる。 別々に出版した手法を 開発しました [8]
0.79
Specifically, we established a common Network Time Protocol (NTP) signal as reference for the camera and wearables sub-networks. 具体的には,カメラおよびウェアラブルサブネットワークへの参照として,共通ネットワークタイムプロトコル(ntp)信号を確立した。 0.73
We achieved a demonstrated cross-modal latency of 13 ms at worst is well below the 40 ms latency tolerance suitable for behavior research in our setting [8, Sec. 3.3]. 8, sec. 3.3] の動作研究に適した40 ms のレイテンシ耐性を,最悪の場合には13 ms のクロスモーダルレイテンシで達成した。 0.63
3.3 Ethics, Ecological Validity, and Recruitment 3.3 倫理・生態学的妥当性・採用 0.68
The collection and sharing of ConfLab is GDPR compliant. ConfLabの収集と共有はGDPRに準拠している。 0.78
It was approved by both, the human research ethics committee at our institution and the local authorities of the country of the conference. 当機関の人間研究倫理委員会と会議の地方当局の双方が承認した。 0.50
All participants gave consent for the recording and sharing of their data. 参加者は全員、データの記録と共有に同意した。 0.80
ConfLab is only available for academic research purposes under an End User License Agreement. ConfLabは、End User License Agreementの下で、学術的な研究目的でのみ利用できる。 0.76
An often-overlooked but crucial aspect of in-the-wild data collection is the design and ecological validity of the interaction setting. しばしば見過ごされるが重要なデータ収集の側面は、インタラクション・セッティングの設計と生態学的妥当性である。 0.63
We chose an international scientific conference for which the General Chairs agreed to cooperate with us. 我々は、総会が我々と協力することに同意した国際科学会議を選んだ。 0.67
This was crucial for promoting the event, and selecting and gaining access to an appropriate room at the conference venue to setup recording. これはイベントを宣伝し、カンファレンス会場の適切な部屋を選択してアクセスし、録音をセットアップするために重要だった。 0.77
To encourage mixed levels of status, acquaintanceship, and motivations to network, we designed an event with the conference organizers called Meet the Chairs! ステータス、知性、ネットワークへのモチベーションの混合レベルを促進するために、カンファレンスオーガナイザであるmeet the chairsと一緒にイベントをデザインしました! 0.67
To further address privacy concerns, we chose an overhead camera view that makes faces and facial behavior harder to analyze, and recorded audio at low frequency. さらにプライバシー問題に対処するため、顔や顔の動作を解析しにくくするオーバーヘッドカメラのビューを選択し、音声を低周波で記録した。 0.70
During the conference, participants were recruited via word-of-mouth marketing, social media, conference announcements, and an event web page. カンファレンス期間中、参加者は口コミマーケティング、ソーシャルメディア、カンファレンスの発表、イベントWebページを通じて募集された。 0.66
Aside from the prospect of contributing to a community dataset and networking with the conference Chairs, as an additional incentive we provided attendees with post-hoc insights into their networking behavior using metrics computed from the wearable sensor data. カンファレンスチェアとのコミュニティデータセットへのコントリビュートとネットワーキングへのコントリビューションは別として、追加のインセンティブとして、ウェアラブルセンサーデータから算出されたメトリクスを使用して、参加者にネットワーク行動に関する洞察を提供した。 0.64
See Supplementary material for a sample participant report. サンプル参加者レポートの補足資料を参照。 0.70
3.4 Data Association and Participant Protocol 3.4 データアソシエーションと参加者プロトコル 0.74
One consideration for multimodal data recording is the data association problem—how can pixels corresponding to an individual be linked to their other data streams? マルチモーダルデータ記録の1つの考慮事項は、データ関連の問題である。 0.40
This was solved by designing a participant registration protocol. これは参加者登録プロトコルの設計によって解決された。 0.66
Arriving participants were greeted and directed to a registration desk by the interaction area. 参加者は歓迎され、交流エリアによって登録デスクに指示された。 0.67
Team members fitted the participant with a Midge. チームメンバーは参加者にmidgeを取り付けました。 0.71
The ID of the Midge acted as the participant’s identifier. ミッジのIDは参加者の識別子として機能した。 0.68
One team member took a picture of the participant while ensuring both the face of the participant and the ID on the Midge were visible. あるチームメンバーが参加者の写真を撮り、参加者の顔とミッドゲのidの両方が見えるようにしました。 0.69
These pictures will not be shared. これらの写真は共有されません。 0.65
In practice, it is preferable to avoid this step by using a fully automated multimodal association approach. 実際には、完全に自動化されたマルチモーダルアソシエーションアプローチを用いることで、このステップを避けることが好ましい。 0.61
However this remains an open research challenge [37, 38]. しかし、これはまだオープンな研究課題である[37, 38]。 0.77
During the event, participants mingled freely—they were allowed to carry bags or use mobile phones. イベント中、参加者は自由に混ざり合い、バッグの持ち運びや携帯電話の使用を許された。 0.67
Conference volunteers helped to fetch drinks for participants. 会議のボランティアは参加者のために飲み物を取り出すのを助けました。 0.51
Participants could leave before the end of the 1 hour session. 参加者は1時間のセッションが終わる前に出発できる。 0.82
3.5 Replicating Data Collection Setup and Community Engagement 3.5 データコレクションセットアップとコミュニティエンゲージメントのレプリケーション 0.77
After the event, we gave a tutorial at ACM Multimedia 2019 [39] to demonstrate how our collection setup could be replicated, and to invite conference attendees and event participants to reflect on the broader considerations surrounding privacy-preserving data capture, sharing, and future directions such initiatives could take. イベントの後、私たちはACM Multimedia 2019[39]でチュートリアルを行い、コレクションのセットアップをいかに再現できるかをデモし、会議参加者やイベント参加者を招待して、プライバシー保護のデータキャプチャ、共有、そしてそのようなイニシアチブがもたらすべき今後の方向性に関する幅広い考察を反映させました。 0.60
Through engagement with the community we also generated a spin-off of ConfLab in the form of a mobile app to help Multimedia researchers to find others in the community with complementary research interests [40]. コミュニティとの関わりを通じて、私たちはconflabをモバイルアプリという形でスピンオフして、マルチメディア研究者が相補的な研究関心を持つコミュニティ内の他の人を見つけるのに役立つようにしました [40]。
訳抜け防止モード: コミュニティとの関わりを通じて、私たちはモバイルアプリという形でConfLabからスピンアウトした。 マルチメディア研究者がコミュニティで補完的な研究関心を持つ人を見つけるのを助ける[40]。
0.69
5 5 0.42
英語(論文から抽出)日本語訳スコア
(a) Keypoint annotation interface in covfee [41] (a) covfee [41]におけるキーポイントアノテーションインタフェース 0.83
(b) Gallery of identities (faces blurred for privacy) (b)アイデンティティのギャラリー(プライバシーのためにぼやけた顔) 0.79
(c) Skeleton Figure 3: Illustration of the body keypoints annotation procedure: (c)スケルトン 図3: ボディのイラスト キーポイントのアノテーション手順: 0.75
(a): our custom time continuous annotation interface; (a)我々のカスタムタイム連続アノテーションインターフェース 0.62
(b): the gallery of person identities used by annotators to identify people in the scene; and (b)アノテータが現場の人物を特定するために使用する人物識別のギャラリー 0.65
(c): the template of skeleton keypoints annotated (c)注記されたスケルトンキーポイントのテンプレート 0.77
4 Data Annotation 4 データアノテーション 0.73
4.1 Continuous Keypoints Annotation 4.1 連続キーポイントアノテーション 0.67
Existing datasets of naturalistic social interactions have used video annotation software such as Vatic [22] or CVAT [42] to annotate every N frames only, followed by interpolation, to localize subjects via bounding boxes [6, 7]. 既存の自然主義的社会的相互作用のデータセットは、Vatic[22]やCVAT[42]のようなビデオアノテーションソフトウェアを使用して、すべてのNフレームにアノテートし、次に補間を行い、バウンディングボックス [6, 7]を介して対象をローカライズしている。 0.59
In dense and crowded social scenes, this is problematic due to the interpersonal cross-contamination caused by severely overlapping bounding boxes [17]. 密集した混み合った社会場面では,境界ボックスの重なり合いによる対人的相互汚染が問題となっている[17]。 0.74
Furthermore, richer information about the social dynamics such as gestures and changes in orientation can be obtained through the annotation of skeletal keypoints. さらに,骨格キーポイントのアノテーションにより,ジェスチャや方向変化などの社会的ダイナミクスに関するより豊富な情報を得ることができる。 0.77
To our knowledge, no dataset of in-the-wild ecologically valid conversational social interactions has previously included ground truth body pose annotations. 私たちの知る限りでは、生態学的に妥当な会話的社会的相互作用のデータセットには、これまで根拠となる真理体ポーズアノテーションが含まれていなかった。 0.45
The main reason for this is that the annotation process is time consuming as annotators must localize positions for multiple joints [43]. この主な理由はアノテーション処理が時間を要するため、アノテーションは複数のジョイントの位置をローカライズする必要がある [43]。 0.79
Even using traditional approaches in other settings, it has been realistic to interpolate body key points annotated every N frames (see [42]). 他の設定で従来のアプローチを使用しても、Nフレーム毎にアノテートされたボディキーポイントを補間することは現実的である([42]参照)。
訳抜け防止モード: 他の設定で従来のアプローチを使っても。 現実的でした to interpolate body key points annotated every N frames ( See [ 42 ] )
0.81
For ConfLab this approach is likely to under-sample important body movements such as speech related gestures. ConfLabにとってこのアプローチは、音声関連ジェスチャーのような重要な身体の動きをアンダーサンプリングする可能性が高い。 0.50
To overcome these issues, we collected fine-grained time-continuous annotations of keypoints via an online interface that we implemented as an extension to the covfee framework [19], to allow annotators to track individual joints using their mouse or laptop trackpad while playing the video in their web browser. これらの問題を克服するために,我々はcovfeeフレームワーク [19] の拡張として実装したオンラインインタフェースを用いて,キーポイントの詳細な時間的アノテーションを収集した。
訳抜け防止モード: これらの問題を克服するためです きめ細かい時間を集めました。 covfeeフレームワーク[19]の拡張として実装したオンラインインターフェースによるキーポイントの継続的なアノテーション。 ウェブブラウザで動画を再生しながら、マウスやラップトップのトラックパッドで個々のジョイントを追跡できるようにする。
0.71
The continuous nature of the technique refers to how annotations are done without pausing the video. このテクニックの継続的な性質は、ビデオの一時停止なしにアノテーションがどのように実行されるかを指す。 0.57
To validate the efficacy of the covfee framework, we designed a pilot study, which involved three annotators annotating the shoulders, head and nose keypoints of two people in a scene for 40 s of video using both CVAT [42] and covfee [19]. covfeeフレームワークの有効性を検証するために, cvat [42] と covfee [19] の両方を用いて, 肩, 頭, 鼻のキーポイントを注釈する3人の注釈者による40秒の映像実験を行った。 0.69
Through this pilot, we found that using this technique resulted in lower annotation times (7 min compared to 20 min in CVAT) and high agreement as shown by smaller averaged differences in pixels between covfee’s time-corresponding annotations compared to CVAT annotations interpolated at 1 Hz (17.3 ± 9.5 compared to 25.0 ± 12.3 for CVAT). この試験により,cvatの25.0 ± 12.3に対して1hz(17.3 ± 9.5)で補間されたcvatアノテーションと比較して,covfeeの時間対応アノテーションの画素間の平均差が小さくなることにより,アノテーション時間(cvatの20分に対して7分)が低下し,高い一致が得られることが分かった。 0.66
Annotations for ConfLab were made per camera (so the same subject could be annotated in multiple cameras due to view overlap) for 5 of the overhead cameras (see Fig 1). ConfLabのアノテーションはカメラ毎に作成され(ビューオーバーラップにより複数のカメラで同じ対象が注釈付けされる)、オーバーヘッドカメラの5つ(図1参照)。 0.77
Videos were split into two-minute segments. ビデオは2分間に分割された。 0.68
Each segment was annotated by one annotator by tracking the joints of all the people in the scene. 各セグメントは、シーン内のすべての人々の関節を追跡することで、1つのアノテーションによって注釈付けされた。
訳抜け防止モード: 各セグメントは1つのアノテーションによって注釈付けされた 現場にいる全員の 関節を追跡してる
0.69
4.2 Continuous Speaking Status Annotations 4.2 連続発話状態アノテーション 0.78
We annotated the binary speaking status of every subject due to its importance to social constructs such as rapport [44], conversation floors [45], and the particular challenge it poses to action recognition methods [16, 46, 47]. 我々は,ラプポート[44],会話フロア[45]などの社会構造の重要性と,それが行動認識手法 [16,46,47] にもたらす課題から,各被験者の2進的発話状態について注釈を行った。 0.85
Action annotations have traditionally been carried out using frame-wise techniques [7], where annotators find the start and end frame of the action of interest using a graphical interface. アクションアノテーションは伝統的にフレームワイズ技術 [7] を使って行われており、アノテータはグラフィカルインターフェースを使って関心のあるアクションの開始と終了のフレームを見つけます。 0.74
Given the speed enhancement we saw for our keypoint annotations, we also annotated speaking status time-continuously. キーポイントアノテーションで見た速度向上を考えると、私たちはまた、経時的に注釈を付けました。 0.55
A binary annotation interface, where annotators were asked to press a keyboard アノテーションがキーボードを押すように指示されたバイナリアノテーションインターフェース 0.60
6 6 0.43
英語(論文から抽出)日本語訳スコア
key when they perceived speaking to be start or end, was implemented in the covfee framework [19]. 開始か終了かと感じたときのキーは、covfeeフレームワークで実装されました [19]。 0.67
Similar to [7] the annotations were made by watching the video. 7]と同じように、アノテーションはビデオを見て作られました。 0.72
All overhead views were provided to the annotators to enable the best view for annotating speaking status from the peoples’ visual behavior. すべてのオーバヘッドビューがアノテーションに提供され、人々の視覚行動から話し状態をアノテートするための最善のビューが実現された。 0.66
4.3 F-formation Annotations 4.3 F-formation アノテーション 0.55
F-formations were annotated using an approximation of Kendon’s definition [48], which is the typical approach used by existing datasets [3, 6, 7]. f-formation は、既存のデータセット [3, 6, 7] で使われる典型的なアプローチである kendon の定義 [48] の近似を用いてアノテートされた。 0.78
The annotations consist of F-formation membership, location, and orientation of each participant in the video for 16 minutes. アノテーションは16分間、各参加者のf-formationメンバシップ、ロケーション、オリエンテーションで構成されます。 0.65
Annotations were labeled by one annotator at 1 Hz. アノテーションは1Hzのアノテータによってラベル付けされた。 0.56
The best camera view was provided for each F-formation, in particular to mitigate ambiguities in dealing with truncated formations that span across two neighboring camera views. 最高のカメラビューは、特に隣接する2つのカメラビューにまたがる切り裂かれたフォーメーションを扱う際の曖昧さを軽減するために、各Fフォームに提供された。 0.59
4.4 Annotator Recruitment and Management 4.4アノテータ採用・管理 0.58
Due to budget constraints, we collected 16 minutes of annotation out of the approximately 45 minutes of interaction. 予算上の制約から,約45分間のインタラクションから16分間のアノテーションを収集した。 0.63
The annotated segment was selected to capture the peak crowdedness of the event for maximum variety of social interaction partners. 注釈付きセグメントは、最大多様なソーシャルインタラクションパートナーのためのイベントのピーク混雑を捉えるために選択された。
訳抜け防止モード: 注釈付きセグメントが選択された 最大多種多様なソーシャルインタラクションパートナーのための イベントのピーク混雑を捉えます
0.79
Unlabeled data are available and could be useful for unsupervised approaches. ラベルのないデータは利用可能であり、教師なしのアプローチに役立ちます。 0.57
Keypoints and speaking status annotations were crowd-sourced using Amazon Mechanical Turk. キーポイントとステータスアノテーションはAmazon Mechanical Turkを使ってクラウドソースされた。 0.57
For keypoint annotation tasks, we selected workers based on a qualification task of annotating six out of the 17 keypoints, which allowed us to manually evaluate annotator diligence by observing their annotations. キーポイントアノテーションタスクでは、17のキーポイントのうち6つをアノテートする資格タスクに基づいて作業者を選択し,アノテーションを観察することで手動でアノテータのディリジェンスを評価することができた。
訳抜け防止モード: キーポイントアノテーションタスクでは、17のキーポイントのうち6つをアノテートする資格タスクに基づいて作業者を選択した。 アノテーションを観察することで アノテーションを手動で評価できます
0.72
In all, the annotations were done by 12 workers from different parts of the world. 総じて、アノテーションは世界のさまざまな場所から12人の労働者によって行われた。 0.73
A subset of the same annotators was recruited for the speaking status annotation tasks. 同じアノテーションのサブセットが、話すステータスアノテーションタスクのために採用された。 0.69
We were in direct communication with the annotators throughout the process for quality control. 品質管理のプロセスを通じて、アノテータと直接コミュニケーションを取りました。 0.59
5 Dataset Description 5 データセット記述 0.82
Individual-Level Statistics Figure 4 shows the occlusion statistics we obtained from annotators for each of our 17 keypoints. 個人レベルの統計 図4は、17のキーポイントごとにアノテーションから得られた咬合統計を示しています。 0.62
The occlusion flag was annotated per body joint simultaneous with the continuous joint position annotation. 閉塞フラグは連続的関節位置アノテーションと同時で全身関節に付加された。 0.75
In Figure 5a we plotted the distribution of turn lengths in our speaking status annotations. 図5aでは、発話状態アノテーションのターン長の分布をプロットした。 0.71
We defined a turn to be a contiguous segment of positively-labeled speaking status, which resulted in a total of 4096 turns annotated for the 49 participants in the 16 minutes of data recordings. その結果、16分間のデータ記録で49名の参加者に計4096名のアノテートが得られた。
訳抜け防止モード: 私たちはターンを、ポジティブにラベル付けされたスピーキングステータスの連続したセグメントと定義しました。 その結果、16分間のデータ記録で49人の参加者に計4096回の注釈が付された。
0.59
Group-Level Statistics During the 16 minutes, there were 119 distinct F-formations of size greater than or equal to two, 38 instances of singleton, and 16 instances of same group (from membership perspective) reforming after disbanding. 16分間のグループレベルの統計では、サイズが2つ以上38個のシングルトン、同じグループの16のインスタンスが解散後に再編成された。
訳抜け防止モード: グループ - レベル統計 16分の間に、119個の異なるF - サイズが2より大きいか等しい。 シングルトンの38のインスタンスと、同じグループの16のインスタンス(メンバシップの観点から) 解散後の改革
0.74
The group size and duration per group size distribution are shown in Figures 5b and 5c, respectively. グループサイズ分布当たりのグループサイズと期間はそれぞれ図5bおよび5cに示す。 0.83
The number of groups is inversely related to the size of the group (i.e. there are fewer large groups). 群の数は、その群のサイズと逆関係である(すなわち、大きな群がより少ない)。 0.68
The duration of the groups does not show particular trends with respect to the group sizes. グループの期間は、グループサイズに関して特別な傾向を示すものではない。 0.82
It is worthy to note that groups of size 2,3,and 4 have a larger spread in duration. 2,3 と 4 の群は、持続時間においてより大きな広がりを持つことに留意すべきである。 0.67
From the self-reported experience level in the related conference venue, the new-comer percentage in F-formations is summarized in histogram in Figure 5d. 関連会議会場における自己報告経験レベルから,Fフォームの新規利用者の割合を図5dのヒストグラムにまとめる。 0.75
This figure clearly demonstrates two peaks on both sides of the spectrum (i.e., no new comers vs. all new comers in the same group). この図はスペクトルの両側に2つのピークがあることを明確に示している(つまり、同じグループの全ての新しいコマに対して新しいコマはない)。 0.59
Groups with members of mixed status present opportunities to study the implicit seniority relationships and roles in the interactions. 混合状態を持つグループは、相互作用における暗黙の年長関係と役割を研究する機会を提供する。 0.70
There are 12 F-formations (group size ≥ 2) and 2 singletons that include member(s) using the mobile phone during the event. 12個のFフォーム(グループサイズ ≥ 2)と2個のシングルトンがあり、イベント中に携帯電話を使用するメンバーが含まれている。 0.75
Usage of mobile phones during a social interaction. ソーシャルインタラクションにおける携帯電話の利用。 0.69
The member(s) that used mobile phones are available as part of the annotations of F-formations. 携帯電話を使用したメンバは、f-formationsのアノテーションの一部として利用できる。 0.75
Conflab enables research topic in the topic of usage of mobile phones in small-group social interactions in-the-wild that could Conflabは、小規模グループにおけるソーシャルインタラクションにおける携帯電話の利用に関する研究トピックを可能にする。 0.64
Figure 4: Fraction of keypoints labeled as occluded, per body joint. 図4: 身体関節ごとにoccludedとラベル付けされたキーポイントのごく一部。 0.65
7 7 0.42
英語(論文から抽出)日本語訳スコア
shed light on quality of engagement. エンゲージメントの質に光を当てた。 0.65
Research questions along this line, considering with the variety and granularity of other data in Conflab, would not be possible in existing datasets. Conflabの他のデータの多様性と粒度を考慮すると、この線に沿った研究の問題は、既存のデータセットでは不可能である。 0.69
6 Research Tasks We report experimental results on three baseline benchmark tasks: person and keypoints detection, speaking status detection, and F-formation detection. 6 研究課題 本研究では,人・キーポイント検出,発話状態検出,f-formation検出という3つの基本ベンチマークタスクに関する実験結果について報告する。 0.66
The first task is a fundamental building block for automatically analyzing human social behaviors. 最初のタスクは、人間の社会的行動を自動的に分析するための基本的なビルディングブロックである。 0.57
The other two demonstrate how learned body keypoints can be used in the pipeline. 他の2つは、パイプラインで学習したボディキーポイントをどのように使用できるかを示しています。 0.52
Importantly, speaking status is a key non-verbal cue for many social interaction analysis tasks [49] while F-formations detection in dynamic scenes is necessary to establish potential inter-personal influence by determining who is conversing with whom. 重要なこととして,多くの社会的相互作用分析タスクにおいて,発話状態は重要な非言語的手がかりである[49]一方,動的場面におけるF-formationの検出は,誰が誰と会話しているかを判断することによって,潜在的対人的影響を確立するために必要である。 0.53
We chose these benchmarking tasks since they have been studied on other in-the-wild behavior datasets. 他のwildビヘイビアデータセットで研究されているので、これらのベンチマークタスクを選択しました。
訳抜け防止モード: ベンチマークの作業は それらは、他のin-the- wild behaviorデータセットで研究されている。
0.46
6.1 Person and Keypoints Detection 6.1 人物・要点検出 0.71
We developed a system for person detection (identifying bounding boxes) and pose estimation (localizing skeletal keypoints such as elbows, wrists, etc.). 本研究では,人体検出(境界ボックスの識別)とポーズ推定(肘,手首などの骨格キーポイントの局在化)を行うシステムを開発した。 0.80
We used Mask-RCNN [50] for both person detection and keypoint estimation tasks. 人物検出とキーポイント推定の両方にMask-RCNN[50]を用いた。 0.71
Since keypoint annotations were made per camera, we used four of the overhead cameras for training and one for testing. カメラ毎にキーポイントアノテーションが作成されているので、トレーニングにはオーバーヘッドカメラ4つ、テストには1つを使用しました。 0.57
The keypoint annotations contained some incorrectly labeled keypoints, a product of annotation errors like mis-assignment of participant IDs. キーポイントアノテーションには、不正にラベル付けされたキーポイントが含まれていた。 0.46
We removed these using a threshold on the proximity to other keypoints of the same person. 我々は、同じ人の他のキーポイントに近接するしきい値を用いてこれらを除去した。 0.68
Missing keypoints were ignored during back-propagation and we entirely dropped frames that contained more than 10% of missing keypoints. バックプロパゲーション中に欠落したキーポイントは無視され、欠落したキーポイントの10%以上を含むフレームを完全に削除しました。 0.58
This resulted in a training set with 139k frames (1588k person instances) and a test set with 28k frames (405k person instances). その結果、トレーニングセットは139kフレーム(1588k人インスタンス)、テストセットは28kフレーム(405k人インスタンス)となった。 0.78
We used the Detectron2 framework [51] to implement the baselines. detectron2 フレームワーク [51] を使ってベースラインを実装しました。 0.72
We made use of ResNet-50 and ResNet-101 FPN backbone. resnet-50 と resnet-101 fpn backbone を使用した。 0.61
We resized the images to 960×540, and applied random brightness and random horizontal flip augmentation. 画像は960×540にリサイズし、ランダム輝度とランダム水平フリップ拡張を適用した。 0.74
The learning rate was set to 0.02 and batch size to 4. 学習率を0.02に設定し,バッチサイズを4。 0.80
We trained the models for 50k iterations. モデルを50kイテレーションでトレーニングしました。 0.63
We use the COCO-pretrained weights for initialization. 初期化にはCOCO調整重量を用いる。 0.73
All hyper-parameters were chosen based on the performance on a separate hold-out camera chosen as validation set. すべてのハイパーパラメータは、バリデーションセットとして選択された別のホールトアウトカメラのパフォーマンスに基づいて選択された。 0.58
We evaluated object detection performance using the standard evaluation metrics in the MS-COCO dataset paper [52]. 我々はMS-COCOデータセットの標準評価指標を用いてオブジェクト検出性能を評価した[52]。 0.81
We report average precision (AP) for intersection over union (IoU) thresholds of 0.50 and 0.75, and the mean AP from an IoU range from 0.50 to 0.95 in 0.05 increments. また,0.5インクリメントでは0.50から0.75,0.95の範囲の平均ap値が0.50から0.05の範囲であった。
訳抜け防止モード: We report average precision (AP ) for intersection over union (IoU ) thresholds of 0.50 and 0.75, また、IoUの平均APは0.50から0.95インクリメント0.05インクリメントである。
0.85
For keypoint detection, we use object keypoint similarity (OKS) [52]. キーポイント検出には、object keypoint similarity (oks) [52]を使用する。 0.81
APOKS is a mean average precision for different OKS thresholds from 0.5 to 0.95. APOKSは0.5から0.95までの様々なOKS閾値の平均精度である。 0.76
Table 2 summarizes our person detection and joint estimation results. 表2は、人物検出と共同推定結果を要約する。 0.66
Our baseline achieves 50.8 AP50 in detection and 33.3 APOKS in keypoint estimation using ResNet-50 backbone. ベースラインは 50.8 ap50 検出と 33.3 apoks を resnet-50 backbone を用いて達成した。 0.55
The low average APOKS of 10.7 indicates that the estimated keypoints are imprecise. 10.7の低い平均APOKSは、推定されたキーポイントが不正確であることを示している。 0.50
The choice of backbone did not affect results significantly. バックボーンの選択は結果に大きな影響を与えなかった。 0.73
Further experiments with Faster-RCNN (a detection-only model) and four different backbones (R50-C4, R101-C4, R50-FPN, and R101-FPN) revealed consistently better results for FPN backbones, with a best AP50 of 51.49. Faster-RCNN(検出専用モデル)と4つの異なるバックボーン(R50-C4、R101-C4、R50-FPN、R101-FPN)によるさらなる実験により、FPNのバックボーンは一貫して改善され、AP50は51.49であった。 0.60
We performed an analysis to show the effect of training data on the final evaluation. 最終評価におけるトレーニングデータの効果について分析を行った。
訳抜け防止モード: 私たちは分析を行った トレーニングデータの最終的な評価への影響を示す。
0.82
In Table 3, we train Mask-RCNN R50-FPN backbone on 2, 3, and 4 camera views respectively, and evaluate one camera view (camera 6). 表3では,2,3,4カメラビューでMask-RCNN R50-FPNバックボーンをトレーニングし,カメラビューを1つ評価する(カメラ6)。 0.81
The result AP50 for detection and APOKS for keypoint estimation. その結果、検出用AP50とキーポイント推定用APOKSとなる。 0.60
There is a big performance improvement when we add multiple camera views in the training set. トレーニングセットに複数のカメラビューを追加すると、パフォーマンスが大幅に向上します。 0.81
ConfLab 50 ConfLab 50 0.43
50 (a) Distribution of speaking turn lengths. 50 (a)話し声の長さの分布。 0.57
(b) Distribution of group size b)群の大きさの分布 0.86
(c) Distribution of group duration (c)群の長さの分布 0.81
(d) Newcomer percentage in F-formations d)Fフォームの新規利用率 0.72
Figure 5: Annotation and dataset statistics for speaking status and conversation groups 図5:発話状況と会話グループのための注釈とデータセット統計 0.87
8 8 0.42
英語(論文から抽出)日本語訳スコア
Table 2: Mask-RCNN Results for person bounding box detection and keypoint estimation. 表2: Mask-RCNN 人物境界ボックス検出とキーポイント推定のための結果。 0.72
Person Detection Keypoint Estimation 人物検出 キーポイント推定 0.55
Model AP50 R50-FPN 50.8 R101-FPN 50.9 モデル AP50 R50-FPN 50.8 R101-FPN 50.9 0.50
AP AP75 APOKS 50 33.3 25.2 25.6 31.5 AP AP75 APOKS 50 33.3 25.2 25.6 31.5 0.29
21.5 24.2 APOKS APOKS 10.7 9.8 21.5 24.2 アポクス10.7.9.8 0.30
75 3.9 3.2 75 3.9 3.2 0.29
Table 3: Effect of training data size on keypoint estimation. 表3: キーポイント推定におけるトレーニングデータサイズの影響 0.87
Train Camera cam 2 + cam 10 cam 2 + cam 4 + cam 10 cam 2 + cam 4 + cam 8 + cam 10 トレインカメラカム2+カム10カム2+カム4+カム10カム2+カム4+カム8+カム10 0.52
AP50 APOKS 41.9 48.8 50.8 AP50 APOKS 41.9 48.8 50.8 0.27
50 8.3 23.3 33.3 50 8.3 23.3 33.3 0.27
features high person scene density (15 on average per camera view) which may be a useful resource for developing overhead person detection and keypoint estimation. ハイパーソンシーン密度(カメラビュー当たり平均15)は、オーバーヘッドパーソン検出とキーポイント推定を開発するのに有用なリソースである。 0.62
6.2 Speaking Status Detection 6.2 発話状態検出 0.74
In this task we explore the use of poses and wearable acceleration for detecting the speaking status of a person in the scene. 本課題では,現場の人物の発話状況を検出するために,ポーズとウェアラブルアクセラレーションの利用について検討する。 0.65
In real life social settings in-the-wild, consent for recording audio can be hard to obtain due to privacy concerns [53]. 実生活におけるソーシャル環境においては,プライバシー上の懸念から音声録音の同意を得ることは困難である[53]。 0.72
This has led to the exploration of the use of information from different modalities such video and accelerometers, capable of capturing some of the motion characteristics of speaking-related gestures [17, 18]. これにより、ビデオや加速度計などの様々なモーダルからの情報の利用が探索され、発話関連ジェスチャーの動作特性を捉えることが可能となった[17,18]。 0.79
We use the MS-G3D graph neural network for skeleton action recognition due to its state-of-the-art results [54]. 我々は,ms-g3dグラフニューラルネットワークを用いてスケルトン動作認識を行った [54]。 0.76
We use a model pre-trained on Kinetics Skeleton 400 and provided by the original authors. 我々は、Kineetics Skeleton 400で事前訓練されたモデルを使用し、オリジナルの著者によって提供される。
訳抜け防止モード: 我々はKinetics Skeleton 400で訓練されたプレモデルを使用する 原作者によって提供されました
0.66
For the acceleration modality, we use two standard convolutional neural networks: a 1dimensional version of AlexNet [18], and 1D Resnet [55], both of which we trained from scratch. 加速度モードでは、AlexNet[18]の1次元バージョンと1D Resnet[55]の2つの標準畳み込みニューラルネットワークを使用し、どちらもスクラッチからトレーニングしました。 0.70
We performed late fusion naively by averaging the scores from both modalities. 両モダリティのスコアを平均化し, 遅延核融合を行った。 0.62
The task was set up as a binary classification problem. タスクはバイナリ分類問題として設定された。 0.72
We divided our pose (skeleton) tracks into 3second examples, in keeping with prior work [16, 18]. ポーズ(骨格)のトラックを3秒の例に分けて,先行作業 [16, 18] に合わせることにした。
訳抜け防止モード: ポーズ(骨格)のトラックを3秒の例に分けました。 先行作業[16, 18]を継続する.
0.79
This resulted in a dataset with 21202 examples. その結果、21202例のデータセットが得られた。 0.64
The corresponding acceleration time series were obtained for these segments. これらのセグメントに対して対応する加速度時系列が得られた。 0.60
The examples were labeled via a threshold of 0.5 on the fraction of positive speaking status sample labels, such that an example is labeled positive if the subject was labeled as speaking for at least half the time. 被験者が少なくとも半数の時間に発話としてラベル付けされた場合、そのサンプルを陽性にラベル付けするように、正の発話状態サンプルラベルに0.5の閾値でラベル付けした。 0.70
This resulted in an unbalanced dataset with 29.2% positive labels. その結果、29.2%の正のラベルを持つ不均衡データセットが誕生した。 0.53
Like prior work, we kept this natural imbalance and evaluated using the area under the ROC curve (AUC). 従来の作業と同様に,この自然不均衡を保ち,その領域をROC曲線(AUC)で評価した。 0.77
Poses were preprocessed for training following the MS-3GD preprocessing steps while acceleration readings were not preprocessed in any way. テストはMS-3GDの前処理手順に従って事前処理され、加速度読み取りはいかなる方法でも事前処理されなかった。 0.52
Three of the keypoints (head, and feet tips) were discarded due to these not being present in Kinetics. キーポイントのうち3つ(頭と足の先端)は運動学には存在しないため廃棄された。 0.70
Transfer learning training on MS-G3D was done by freezing all layers except for the last fully connected layer and training for two extra epochs. ms-g3dのトランスファーラーニングトレーニングは、最後の完全連結層を除いてすべての層を凍結し、2つの余分なエポックのためのトレーニングを行った。 0.58
Evaluation was carried out via a train-test split at the subject level with 20% of the person identities (9 subjects) in the test set, ensuring that no examples from the test subjects were used in training. 実験セットにおける被検者の身元(被験者9名)の20%で、被検体レベルでの列車試験分割により評価を行い、被検体からのサンプルがトレーニングに使用されないことを確認した。
訳抜け防止モード: 実験セットにおける被検者の身元(被験者9名)の20パーセントを被験者レベルで分割した列車による評価を行った。 テスト対象からのサンプルがトレーニングに使用されないことを保証します。
0.75
The results in Table 4 indicate a better performance from the acceleration-based methods. 表4の結果は、アクセラレーションに基づく方法よりも優れたパフォーマンスを示している。 0.68
One possible reason for the lower performance of the pose-based methods is the significant domain shift between the Kinetics dataset and our dataset, especially due the difference in camera viewpoint (frontal vs top-down). ポーズベースの手法が性能が低い理由の一つは、特にカメラの視点の違い(フロントとトップダウン)により、動力学的データセットとデータセットの間の重要な領域シフトがある。 0.71
The acceleration results are in line with previous work [16], with a slight increase possibly due to the better higher resolution of our sensors. 加速度は以前の[16]と一致しており、センサーの高解像度化により、わずかに増大する可能性がある。 0.70
Multimodal results were worse than acceleration-only results, possibly at least in part due to the naive fusion approach that we followed. マルチモーダルの結果は、加速のみの結果よりも悪く、少なくとも一部は、我々が追随したナイーブ・フュージョン・アプローチによるものである。 0.57
Table 4: ROC AUC and accuracy of skeletonbased, acceleration-based and multimodal speaking status detection. 表4:ROC AUCとスケルトンベース,アクセラレーションベース,マルチモーダル発話状態検出の精度。 0.74
Model Modality AUC モデルモダリティ AUC 0.55
Acc. Pose Acceleration acc。 ポーズ 加速 0.42
0.762 0.858 0.816 Multimodal MS-G3D + Alexnet 1D 0.831 0.762 0.858 0.816 マルチモーダルMS-G3D + Alexnet 1D 0.831 0.49
MS-G3D [56] Alexnet 1D [18] Resnet 1D [55] MS-G3D [56]Alexnet 1D [18]Resnet 1D [55] 0.41
0.657 0.780 0.770 0.699 0.657 0.780 0.770 0.699 0.23
9 Table 5: Average F1 scores for F-formation detection comparing GTCG [15] and GCFF [21] with the effect of different threshold and orientations (standard deviation in parenthesis). 9 表5: gtcg [15] と gcff [21] を比較したf-formation 検出のための平均 f1 スコアと、異なるしきい値と向き(括弧における標準偏差)の影響。 0.59
GTCG GCFF T=2/3 GTCG GCFF T=2/3 0.35
T=1 T=2/3 t=1 である。 T=2/3 0.25
T=1 Head 0.51 (0.09) 0.40 (0.10) 0.47 (0.07) 0.31 (0.05) Shoulder 0.46 (0.11) 0.38 (0.12) 0.58 (0.29) 0.41 (0.16) Hip 0.45 (0.10) 0.32 (0.09) 0.39 (0.06) 0.25 (0.11) t=1 である。 Head 0.51 (0.09) 0.40 (0.10) 0.47 (0.07) 0.31 (0.05) Shoulder 0.46 (0.11) 0.38 (0.12) 0.58 (0.29) 0.41 (0.16) Hip 0.45 (0.10) 0.32 (0.09) 0.39 (0.06) 0.25 (0.11) 0.30
英語(論文から抽出)日本語訳スコア
6.3 F-formation Detection 6.3 F-formation Detection 0.29
Automatically detecting interacting groups in social settings has been of interest in past work (e g , [5, 13–15]). 社会的設定における対話的グループの自動検出は、過去の仕事(例えば、[5, 13–15])に注目されている。
訳抜け防止モード: ソーシャル設定における対話型グループの自動検出 過去の仕事(例:[5])に注目が集まっている。 13–15 ] ) .
0.78
Being able to identify groups of people in a social scene sheds light on dynamics of potential social influence. 社会的な場面で集団を特定できることは、潜在的な社会的影響のダイナミクスに光を当てる。 0.71
Like prior work, we consider interaction groups more rigorously as F-formations as defined by Kendon [48]. 先行研究と同様に、相互作用群をケンドン [48] によって定義される F-形式として厳密に考える。 0.54
We provide performance results for F-formation detection using GTCG [15] and GCFF [21] as a baseline. GTCG[15]とGCFF[21]をベースラインとしてF値検出の性能評価を行った。 0.74
Application of recent deep learning methods such as DANTE [14] is not directly applicable since the inputs to the neural network architecture depend on the number of people in the scene, which varies from frame to frame in ConfLab. ニューラルネットワークアーキテクチャへの入力は、conflabのフレームごとに異なるシーン内の人の数に依存するため、dante [14]のような最近のディープラーニング手法の適用は直接適用されない。 0.68
We use standard evaluation metrics for group detection. グループ検出には標準評価指標を用いる。 0.79
A group is correctly estimated if at least (cid:100)T ∗ |G|(cid:101) of the members of group G are correctly identified, and no more than 1 − (cid:100)T ∗ |G|(cid:101) is incorrectly identified, where T is the tolerance threshold. 群 G のメンバーの少なくとも (cid:100)T ∗ |G|(cid:101) が正しく同定され、T が許容しきい値であるような 1 − (cid:100)T ∗ |G|(cid:101) が正しく同定されていない場合、群は正しく推定される。 0.79
We set T = 2 3 or T = 1 (more strict threshold), which is a common practice. 私たちは、T = 2 3 または T = 1(より厳密なしきい値)を定めます。 0.76
We report detection results in Table 5 in terms of F1 score, where true positive correspond to correctly detected groups; false positives to detected but non-existent groups; and false negatives to non-detected groups. 表5に,正の正の正が正しく検出されたグループに対応するf1スコア,検出されるが存在していないグループに対する偽の正,検出されていないグループに対する偽の負の結果について報告する。 0.65
Results are obtained for videos from camera 2,4,6, and 8. ビデオは2,4,6,8。 0.39
We use pre-trained parameters (from Cocktail Party [3]) for field of view (FoV) and frustum aperture (GTCG) and minimum description length (GCFF), and adjusted frustum length (GTCG) and stride (GCFF) to account for average interpersonal distance in ConfLab. 視覚野 (fov) とフラスタム開口 (gtcg) と最小記述長 (gcff) に前訓練パラメータ (カクテルパーティ[3]) を用い, conflab における対人距離の平均を調節したフラスタム長 (gtcg) と stride (gcff) を用いて検討した。 0.76
Features include positions and orientations, with options for orientations derived from head, shoulders, and hips keypoints. 特徴には、頭、肩、腰のキーポイントから派生した方向のオプションを含む位置と向きが含まれる。 0.61
We show that different results are obtained using different sources of orientations. 異なる方向のソースを用いて異なる結果が得られることを示す。 0.76
Potential explanations include the different occlusion levels in keypoints due to camera viewpoint and the complexity in the concept of interacting groups pertaining to the original definition of F-formations [48] and conversation floors [45] in relation to head, upper-body, and lower-body orientation. 潜在的な説明には、カメラ視点によるキーポイントの咬合レベルの違いと、頭、上体、下体方向に関するf-formations [48] と会話フロア [45] の本来の定義に関連する相互作用グループの概念の複雑さが含まれる。 0.81
As an in-the-wild dataset with large number of participants and high-resolution annotations, ConfLab provides new opportunities and challenges for future method development in F-formation detection. 多数の参加者と高解像度アノテーションを備えた組み込みデータセットとして、ConfLabはF-formation Detectionにおける将来的なメソッド開発のための新たな機会と課題を提供する。 0.62
7 Conclusion, Discussions, and Limitations 7 結論、討論及び制限 0.62
ConfLab captures a rich and high-fidelity multi-sensor and multimodal dataset of social interaction behavior in-the-wild and in a real-life networking event. ConfLabは、リッチで高忠実なマルチセンサーとマルチモーダルデータセットを、Wildおよび実生活のネットワーキングイベントで取得する。 0.58
We built upon prior work by providing higher-resolution and framerate data and also carefully designed our social interaction setup to enable a diverse mix of seniority, acquaintanceship, and motivations for mingling. 我々は、より高解像度でフレームレートなデータを提供することによって以前の作業の上に構築し、また、高齢者、知人、モチベーションの多様な混合を可能にするために、社会的相互作用の仕組みを慎重に設計した。 0.45
Prior efforts under-sampled much of the dynamics of human social behavior while ConfLab uses a modular and scalable recording setup capable of guaranteeing inter- and intra-modal synchronization in keeping with the perception of human social cues. ConfLabは、人間の社会的行動のダイナミクスの多くをアンダーサンプリングする一方、ConfLabはモジュラーでスケーラブルな記録設定を使用して、人間の社会的行為の認識を保ちながら、モダル間の同期を保証する。 0.52
We contribute a rich set of 17 body keypoint annotations of 49 people at 60Hz from over head cameras for developing more robust keypoint estimation as well as manual annotations for key tasks in social behavior analysis, namely speaker and F-formation detection. 我々は,よりロバストなキーポイント推定と,社会的行動分析における重要なタスク,すなわち話者とf-formation検出のためのマニュアルアノテーションを開発するために,頭上カメラから60hzで49人のボディキーポイントアノテーションを17セット提供した。 0.72
We provide baseline results for these tasks, showing how our body keypoints can be used for downstream social tasks. これらのタスクのベースライン結果を提供し、下流のソーシャルタスクに私たちのキーポイントをどのように使えるかを示します。 0.58
A potential benefit of our body keypoint annotations is that it enables us to revisit some of the socially related prediction tasks from prior datasets with overhead camera views (e g [5, 7]) by using ConfLab pre-trained body keypoint models. ボディキーポイントアノテーションの潜在的な利点は、ConfLabで事前訓練されたボディキーポイントモデルを使用して、オーバーヘッドカメラビュー(例:[5, 7])を持つ以前のデータセットから、社会的に関連のある予測タスクのいくつかを再考できることです。 0.66
Finally, to improve estimation robustness, ConfLab provides multimodal data allowing for further development of multimodal machine learning solutions [57] that could improve over vision only systems. 最後に、推定ロバスト性を改善するために、conflabはマルチモーダルデータを提供し、ビジョンのみのシステムよりも改善できるマルチモーダル機械学習ソリューション [57] の開発を可能にする。 0.70
We believe this is an important step towards a long-term vision for developing personalized socially aware technologies that can enhance and foster positive social experience and assist people in their social decisions. これは、ポジティブな社会体験を強化し、促進し、社会的意思決定を支援するパーソナライズされた社会認識技術を開発するための、長期的なビジョンへの重要なステップであると考えています。 0.59
Future in-the-wild Social Data Collection. 将来的なソーシャルデータ収集。 0.77
Since ConfLab captures social relationships, if we want to relate an individual’s social behaviors to longer term behavioral trends within the social network (e g across coffee breaks in one day, days at a conference, or multiple conferences), more instantiations similar to ConfLab are needed. ConfLabは、社会的関係を捉えているので、個人の社会的行動と、ソーシャルネットワーク内の長期的な行動傾向(例えば、コーヒーを飲みながら1日、会議で1日、あるいは複数のカンファレンス)を関連づけたいのであれば、ConfLabと同様のインスタンス化が必要である。 0.71
We hope this paper serves as a record for how to run such a data collection, providing a template for future ventures. この論文が、このようなデータ収集の方法の記録となり、将来のベンチャーのためのテンプレートを提供することを願っている。 0.67
Privacy and Fidelity Trade-off. プライバシーとフィデリティのトレードオフ。 0.58
This instantiation of ConfLab attempted to maximize data fidelity while preserving participants’ privacy through the choices of overhead camera perspective, low audio recording frequency, and non-intrusive wearable sensors matching a conference badge form-factor. このConfLabのインスタンス化は、オーバヘッドカメラパースペクティブ、低オーディオ記録周波数、カンファレンスバッジフォームファクタにマッチする非侵入型ウェアラブルセンサーの選択を通じて、参加者のプライバシを維持しながら、データの忠実性を最大化しようとした。 0.59
However, richer information about participants’ social networks is also necessary for a more in-depth しかし、参加者のソーシャルネットワークに関するより豊富な情報も、より深く知るためには必要だ。 0.62
10 10 0.42
英語(論文から抽出)日本語訳スコア
study of technologies to help people’s social decision-making. 人々の社会的意思決定を支援する技術の研究。 0.81
We hope ConfLab inspires innovation in finding machine learning and sensing solutions to enhance perception while preserving privacy. ConfLabは、プライバシーを維持しながら認識を高めるために、機械学習とセンシングソリューションを見つけるイノベーションを刺激することを期待しています。 0.53
Data Association. データ・アソシエーション。 0.55
A crucial assumption made in many former multimodal datasets[1, 6, 7] is that the association of video data to the wearable modality can be manually performed. 多くのマルチモーダルデータセット[1, 6, 7]において、ビデオデータとウェアラブルモダリティとの関連付けを手動で行うことができるという重要な仮定がなされている。
訳抜け防止モード: 以前の多くのマルチモーダルデータセット[1, 6]における重要な仮定 7]? ビデオデータとウェアラブルモダリティとの関連付けを手動で行うことができる。
0.73
Few works [37, 38] have tried to address this issue but using movement cues alone to associate the modalities is challenging as conversing individuals are mostly stationary. この問題に対処しようとする[37,38]作品はほとんどないが、会話する人がほとんど静止しているため、モダリティを関連付けるために動きの手がかりだけで使うのは困難である。 0.58
This remains a significant and open question for future large scale deployable multimodal systems. これは、将来の大規模デプロイ可能なマルチモーダルシステムにとって、重要かつオープンな問題である。 0.56
One solution may be to annotate more social actions as a form of top-down supervision. 一つの解決策は、トップダウン監視の一形態として、より社会的行動に注釈をつけることである。
訳抜け防止モード: 一つの解決策は より社会的な行動をトップダウンの形で注釈付けすること。
0.58
However, detecting pose and actions robustly from overhead cameras remains to be solved. しかし、頭上カメラからのポーズや動作のロバストな検出は未解決である。 0.67
Potential Negative Societal Impact. 潜在的な負の社会的な影響。 0.49
Although ConfLab’s long term vision is towards developing technology to assist individuals in navigating social interactions, such technology could also affect a community in unintended ways: e g causing worsened social satisfaction, lack of agency, or benefiting only those members of the community who make use of the system at the expense of the rest. conflabの長期的なビジョンは、個人が社会的相互作用をナビゲートするのを助ける技術を開発することであるが、そのような技術は、社会的満足度の悪化、機関の欠如、その他を犠牲にしてシステムを利用するコミュニティのメンバーのみの利益など、意図しない方法でコミュニティに影響を与える可能性もある。 0.68
All of these must be considered when developing such systems. これら全ては、このようなシステムを開発する際に考慮する必要がある。 0.56
Moreover, ConfLab and its trained models could be exploited to develop technologies to de-anonymize or track subjects in privacy invasive ways (i.e., harmful surveillance). さらに、ConfLabとその訓練されたモデルは、プライバシーの侵害的な方法で被験者を匿名化または追跡する技術(すなわち有害な監視)を開発するために利用することができる。 0.60
Finally, since the data was collected during a scientific conference, there is an implicit selection bias which users of the data need to take into account. 最後に、データは科学的な会議で収集されたため、データの利用者が考慮する必要がある暗黙の選択バイアスが存在する。 0.78
References [1] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. 参照: [1] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, Yaser Sheikh
訳抜け防止モード: 参照 [1 ]hanbyul joo, tomas simon, xulong li, ハオ・リウ、レイ・タン、リン・ギ、ショーン・バネルジー ティモシー・スコット・ゴディサート、バート・ナッベ、イアン・マシューズ、金手武雄、 信原正平、シェイク弥生。
0.58
Panoptic studio: A massively multiview system for social interaction capture. panoptic studio: ソーシャルインタラクションをキャプチャする巨大なマルチビューシステム。 0.74
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017 0.38
1, 2, 4, 11 1, 2, 4, 11 0.42
[2] Jean Carletta, Simone Ashby, Sebastien Bourban, Mike Flynn, Mael Guillemot, Thomas Hain, Jaroslav Kadlec, Vasilis Karaiskos, Wessel Kraaij, Melissa Kronenthal, Guillaume Lathoud, Mike Lincoln, Agnes Lisowska, Iain McCowan, Wilfried Post, Dennis Reidsma, and Pierre Wellner. [2] Jean Carletta, Simone Ashby, Sebastien Bourban, Mike Flynn, Mael Guillemot, Thomas Hain, Jaroslav Kadlec, Vasilis Karaiskos, Wessel Kraaij, Melissa Kronenthal, Guillaume Lathoud, Mike Lincoln, Agnes Lisowska, Iain McCowan, Wilfried Post, Dennis Reidsma, Pierre Wellner
訳抜け防止モード: ジャン・カーレッタ、シモーヌ・アシュビー、セバスチャン・ボーアバン mike flynn, mael guillemot, thomas hain, jaroslav kadlec, vasilis karaiskos, wessel kraaij, melissa kronenthal, guillaume lathoud, マイク・リンカーン、アグネス・リソフスカ、イアン・マッコーワン、ウィルフリード・ポスト デニス・リードマと ピエール・ウェナー
0.55
The ami meeting corpus: A pre-announcement. ami ミーティングコーパス:事前発表。 0.48
In Steve Renals and Samy Bengio, editors, Machine Learning for Multimodal Interaction, pages 28–39, Berlin, Heidelberg, 2006. steve renals と samy bengio, editors, machine learning for multimodal interaction, pages 28–39, berlin, heidelberg, 2006 において。 0.84
Springer Berlin Heidelberg. ベルリン・ハイデルベルク出身。 0.62
1, 4 [3] Gloria Zen, Bruno Lepri, Elisa Ricci, and Oswald Lanz. 1, 4 グロリア・ゼン、ブルーノ・レプリ、エリサ・リッチ、オズワルド・ランツ。 0.40
Space speaks: towards socially and personality aware visual surveillance. 空間は社会的、個性的に視覚的監視を意識する。 0.66
In Proceedings of the 1st ACM international workshop on Multimodal pervasive video analysis, pages 37–42, 2010. 第1回 acm international workshop on multimodal pervasive video analysis, pp37-42, 2010 ページ
訳抜け防止モード: 第1回acm international workshop on multimodal pervasive video analysis の開催にあたって 37-42頁、2010年。
0.80
1, 3, 7, 10 1, 3, 7, 10 0.42
[4] Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, and Vittorio Murino. 4]Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz, Vittorio Murino。
訳抜け防止モード: [4 ]Marco Cristani, Loris Bazzani, Giulia Paggetti, Andrea Fossati, Diego Tosato, Alessio Del Bue, Gloria Menegaz ヴィットリオ・ムリーノとも。
0.72
Social interaction discovery by statistical analysis of f-formations. f-formationの統計的解析による社会的相互作用の発見 0.68
In Jesse Hoey, Stephen J. McKenna, and Emanuele Trucco, editors, British Machine Vision Conference, BMVC 2011, Dundee, UK, August 29 - September 2, 2011. Jesse Hoey, Stephen J. McKenna, Emanuele Trucco, editors, British Machine Vision Conference, BMVC 2011, Dundee, UK, August 29-9月2日
訳抜け防止モード: Jesse Hoey、Stephen J. McKenna、Emanuele Trucco。 編集者, British Machine Vision Conference, BMVC 2011, Dundee, UK 2011年8月29日~9月2日。
0.78
Proceedings, pages 1–12. 背番号は1-12頁。 0.33
BMVA Press, 2011. BMVA、2011年。 0.62
doi: 10.5244/C.25.23. doi: 10.5244/c.25.23。 0.43
URL https://doi.org/10.5 244/C.25.23. URL https://doi.org/10.5 244/C.25.23 0.18
3 [5] Hayley Hung and Ben Kröse. 3 5] ヘイリー・ハングとベン・クレーゼ 0.50
Detecting f-formations as dominant sets. f-形式を支配集合として検出する。 0.46
In Proceedings of the 13th 第13条の手続において 0.59
international conference on multimodal interfaces, pages 231–238, 2011. マルチモーダルインタフェースに関する国際会議、2011年231-238頁。 0.76
2, 3, 10 [6] Xavier Alameda-Pineda, Jacopo Staiano, Ramanathan Subramanian, Ligia Batrinca, Elisa Ricci, Bruno Lepri, Oswald Lanz, and Nicu Sebe. 2, 3, 10 6]Xavier Alameda-Pineda, Jacopo Staiano, Ramanathan Subramanian, Ligia Batrinca, Elisa Ricci, Bruno Lepri, Oswald Lanz, Nicu Sebe。
訳抜け防止モード: 2, 3, 10 [6 ]ザビエル・アラメダ(Xavier Alameda)-ピネダ(Pineda)、ジャコポ・ステイアーノ(Jacopo Staiano)、ラマナサン・サブラマニアン(Ramanathan Subramanian) Ligia Batrinca, Elisa Ricci, Bruno Lepri, Oswald Lanz とNicu Sebe。
0.54
Salsa: A novel dataset for multimodal group behavior analysis. Salsa: マルチモーダルグループ行動分析のための新しいデータセット。 0.84
IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(8):1707–1720, 2015. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(8):1707–1720, 2015 0.46
3, 4, 5, 6, 7, 11 3, 4, 5, 6, 7, 11 0.43
[7] Laura Cabrera-Quiros, Andrew Demetriou, Ekin Gedik, Leander van der Meij, and Hayley Hung. [7]Laura Cabrera-Quiros、Andrew Demetriou、Ekin Gedik、Leander van der Meij、Hayley Hung。 0.37
The matchnmingle dataset: A novel multi-sensor resource for the analysis of social interactions and group dynamics in-the-wild during free-standing conversations and speed dates. Matchnmingle データセット: 自由な会話とスピードデートの間、社会的相互作用とグループダイナミクスの分析のための新しいマルチセンサーリソース。 0.78
IEEE Transactions on Affective Computing, 12(1):113–130, 2021. ieee transactions on affective computing, 12(1):113–130, 2021を参照。 0.66
1, 2, 3, 4, 6, 7, 10, 11 1, 2, 3, 4, 6, 7, 10, 11 0.42
[8] Chirag Raman, Stephanie Tan, and Hayley Hung. 8] チラグ・ラマン、ステファニー・タン、ヘイリー・ハング 0.45
A modular approach for synchronized wireless multimodal multisensor data acquisition in highly dynamic social settings. 高ダイナミックな社会環境下での同期無線マルチモーダルマルチセンサデータ取得のためのモジュラーアプローチ 0.72
In Proceedings of the 28th ACM International Conference on Multimedia, MM ’20, page 3586–3594, New York, NY, USA, 2020. 第28回ACM International Conference on Multimedia, MM ’20, page 3586–3594, New York, NY, USA, 2020 に参加して 0.86
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
ISBN 9781450379885. ISBN9781450379885。 0.77
doi: 10.1145/3394171.3413 697. doi 10.1145/3394171.3413 697 0.29
URL https://doi.org/10.1 145/3394171.3413697. URL https://doi.org/10.1 145/3394171.3413697 0.21
2, 3, 4, 5, 6 2, 3, 4, 5, 6 0.43
[9] Chittaranjan Andrade. 9]Chittaranjan Andrade氏。 0.75
Internal, external, and ecological validity in research design, conduct, and evaluation. 研究設計、行動、評価における内部的、外部的、生態学的妥当性。 0.68
Indian journal of psychological medicine, 40(5):498–499, 2018. インド精神医学雑誌、40(5):498–499、2018年。 0.81
2 11 2 11 0.43
英語(論文から抽出)日本語訳スコア
[10] Élise Labonte-LeMoyne, François Courtemanche, Marc Fredette, and Pierre-Majorique Léger. 10] Élise Labonte-LeMoyne, François Courtemanche, Marc Fredette, Pierre-Majorique Léger。 0.44
How wild is too wild: Lessons learned and recommendations for ecological validity in physiological computing research. いかにワイルドか: 生理的コンピューティング研究で学んだ教訓と生態学的妥当性の勧告。 0.76
In PhyCS, pages 123–130, 2018. PhyCS、2018年123-130頁。 0.72
[11] Hayley Hung, Ekin Gedik, and Laura Cabrera Quiros. [11]Hayley Hung、Ekin Gedik、Laura Cabrera Quiros。 0.63
Complex conversational scene analysis using 複雑な会話シーン分析 0.74
wearable sensors. ウェアラブルセンサー。 0.58
In Multimodal Behavior Analysis in the Wild, pages 225–245. 野生のマルチモーダル行動分析では、225-245ページ。 0.77
Elsevier, 2019. 2019年、エルゼビエ。 0.56
2 [12] Nicolo Carissimi, Paolo Rota, Cigdem Beyan, and Vittorio Murino. 2 12]ニコロ・カリシミ、パオロ・ロタ、シグデム・ベヤン、ヴィットリオ・ムリノ 0.45
Filling the gaps: Predicting missing joints of human poses using denoising autoencoders. ギャップを埋める:デノナイズドオートエンコーダを使って人間のポーズの行方不明な関節を予測する。 0.43
In Proceedings of the European Conference on Computer Vision (ECCV) Workshops, pages 0–0, 2018. Proceedings of the European Conference on Computer Vision (ECCV) Workshops, page 0–0, 2018。 0.43
2 [13] Francesco Setti, Chris Russell, Chiara Bassetti, and Marco Cristani. 2 Francesco Setti氏、Chris Russell氏、Chiara Bassetti氏、Marco Cristani氏。 0.56
F-formation detection: Individuating F-formation Detection: Individuating 0.41
free-standing conversational groups in images. 画像の自由な会話グループ。 0.77
PloS one, 10(5):e0123783, 2015. plos one, 10(5):e0123783, 2015年。 0.80
2, 10 [14] Mason Swofford, John Peruzzi, Nathan Tsoi, Sydney Thompson, Roberto Martín-Martín, Silvio Savarese, and Marynel Vázquez. 2, 10 Mason Swofford氏、John Peruzzi氏、Nathan Tsoi氏、Syson Thompson氏、Roberto Martín-Martín氏、Silvio Savarese氏、Marynel Vázquez氏。
訳抜け防止モード: 2, 10 メイソン・スホフフォード、ジョン・ペルズィー、ネイサン・ツォイ シドニー・トンプソン、ロベルト・マルティン-マルティン、シルヴィオ・サヴァレーゼ そしてmarynel vázquez。
0.51
Improving social awareness through dante: Deep affinity network for clustering conversational interactants. ダンテによる社会的意識の向上: 対話相手をクラスタリングするためのディープアフィニティネットワーク。 0.65
Proceedings of the ACM on Human-Computer Interaction, 4(CSCW1):1–23, 2020. acm on human-computer interaction, 4(cscw1):1-23, 2020 の略。 0.68
10 [15] Sebastiano Vascon, Eyasu Zemene Mequanint, Marco Cristani, Hayley Hung, Marcello Pelillo, and Vittorio Murino. 10 [15]セバスティアーノ・バスコン、Eyasu Zemene Mequanint、Marco Cristani、Hayley Hung、Marcello Pelillo、Vittorio Murino。 0.52
A game-theoretic probabilistic approach for detecting conversational groups. 対話型グループ検出のためのゲーム理論的確率論的アプローチ 0.61
In Asian conference on computer vision, pages 658–675. アジアコンピュータビジョン会議』658-675頁。 0.68
Springer, 2014. 2, 9, 10 2014年春。 2, 9, 10 0.47
[16] Ekin Gedik and Hayley Hung. 16] ekin gedik と hayley は吊り下げた。 0.63
Personalised models for speech detection from body movements using transductive parameter transfer. トランスダクティブパラメータ転送を用いた身体運動からの音声検出のためのパーソナライズドモデル 0.80
Personal and Ubiquitous Computing, 21(4):723–737, August 2017. パーソナライズとユビキタスコンピューティング、21(4):723–737、2017年8月。 0.63
ISSN 1617-4909. ISSN 1617-4909。 0.37
doi: 10.1007/s00779-017-1 006-4. doi: 10.1007/s00779-017-1 006-4。 0.36
2, 4, 6, 9 2, 4, 6, 9 0.43
[17] Laura Cabrera-Quiros, David M.J. Tax, and Hayley Hung. 17]ローラ・カブレラ=キロス、デイヴィッド・m・j・税、ヘイリー・ハング 0.49
Gestures in-the-wild : Detecting conversational hand gestures in crowded scenes using a multimodal fusion of bags of video trajectories and body worn acceleration. ジャスチャ・イン・ザ・ワイルド : ビデオトラジェクタの袋と身体の装着加速度のマルチモーダル融合による混み合った場面における会話的な手振りの検出 0.74
pages 1–10, 2018. 2018年1-10頁。 0.56
6, 9 [18] J. V. Quiros and H. Hung. 6, 9 18] j・v・キロスとh・ハング 0.49
CNNs and Fisher Vectors for No-Audio Multimodal Speech Detection. 非線形マルチモーダル音声検出のためのCNNとフィッシャーベクトル 0.71
In MediaEval, 2019. 院 MediaEval、2019年。 0.61
2, 9 [19] Jose Vargas Quiros, Stephanie Tan, Chirag Raman, Laura Cabrera-Quiros, and Hayley Hung. 2, 9 19]jose vargas quiros、stephanie tan、chirag raman、laura cabrera-quiros、hayley hang。 0.68
Covfee: an extensible web framework for continuous-time annotation of human behavior. Covfee: 人間の振る舞いを継続的にアノテーションするための拡張可能なWebフレームワーク。 0.60
In Cristina Palmero, Julio C. S. Jacques Junior, Albert Clapés, Isabelle Guyon, Wei-Wei Tu, Thomas B. Moeslund, and Sergio Escalera, editors, Understanding Social Behavior in Dyadic and Small Group Interactions, volume 173 of Proceedings of Machine Learning Research, pages 265–293. Cristina Palmero, Julio C. S. Jacques Junior, Albert Clapés, Isabelle Guyon, Wei-Wei Tu, Thomas B. Moeslund, Sergio Escalera, editors, Understanding Social Behavior in Dyadic and Small Group Interactions, Volume 173 of Proceedings of Machine Learning Research, pages 265–293.
訳抜け防止モード: Julio C. S. Jacques Junior, Albert Clapés Isabelle Guyon, Wei - Wei Tu, Thomas B. Moeslund 編集長Sergio Escalera, Dyadic and Small Group Interactionsにおける社会的行動の理解 Proceedings of Machine Learning Research』第173巻、265-293頁。
0.81
PMLR, 16 Oct 2022. PMLR、2022年10月16日。 0.33
URL https: //proceedings.mlr.pr ess/v173/vargas-quir os22a.html. URL https: //proceedings.mlr.pr ess/v173/vargas-quir os22a.html 0.16
2, 6, 7 [20] Stefano Alletto, Giuseppe Serra, Simone Calderara, and Rita Cucchiara. 2, 6, 7 20]ステファノ・アレットー、ジュゼッペ・セラ、シモーネ・カルデラ、リタ・クチアラ 0.41
Understanding social relationships in egocentric vision. 社会関係の理解 自我中心のビジョンです 0.71
Pattern Recognition, 48, 06 2015. 2015年、48, 06頁。 0.55
doi: 10.1016/j.patcog.201 5.06.006. doi: 10.1016/j.patcog.201 5.06.006。 0.17
3 [21] Marco Cristani, Ramachandra Raghavendra, Alessio Del Bue, and Vittorio Murino. 3 21]マルコ・クリスタニ、ラマチャンドラ・ラガヴェンドラ、アレッシオ・デル・ブエ、ヴィットリオ・ムリノ 0.40
Human behavior analysis in video surveillance: A social signal processing perspective. 映像監視における人間の行動分析 : 社会的信号処理の観点から 0.82
Neurocomputing, 100:86–97, 2013. 神経計算、2013年、100:86-97。 0.45
3, 9, 10 [22] Carl Vondrick, Donald Patterson, and Deva Ramanan. 3, 9, 10 22]カール・フォンドリック、ドナルド・パターソン、デヴァ・ラマナン 0.51
Efficiently Scaling up Crowdsourced Video Annotation. クラウドソースのビデオアノテーションの効率的なスケールアップ。 0.48
International Journal of Computer Vision, 101(1):184–204, 2013. international journal of computer vision, 101(1):184–204, 2013年。 0.84
ISSN 0920-5691. ISSN 0920-5691。 0.35
doi: 10.1007/s11263-012-0 564-1. doi: 10.1007/s11263-012-0 564-1。 0.35
3, 6 [23] T. Yu, S. Lim, K. A. Patwardhan, and N. Krahnstoever. 3, 6 T. Yu, S. Lim, K. A. Patwardhan, N. Krahnstoever. 0.40
Monitoring, recognizing and discovering social 社会の監視、認識、発見 0.78
networks. In CVPR, 2009. ネットワーク。 2009年、CVPR。 0.69
3 [24] Elisa Ricci, Jagannadan Varadarajan, Ramanathan Subramanian, Samuel Rota Bulò, Narendra Ahuja, and Oswald Lanz. 3 24]エリザ・リッチ、ジャガンナダン・バラダラジャン、ラマナタン・スプラマニアン、サミュエル・ロタ・ブルシュ、ナレンドラ・アフヤ、オズワルド・ランツ
訳抜け防止モード: 3 [24 ]エリサ・リッチ、ジャガンナダン・バラダラジャン、ラマーナタン・サブラマニアン サミュエル・ロタ・ブル、ナレンドラ・アフジャ、オズワルド・ランツ。
0.39
Uncovering interactions and interactors: Joint estimation of head, body orientation and f-formations from surveillance videos. インタラクションとインタラクタの発見: 監視ビデオからの頭部, 身体方向, f-formationの同時推定 0.74
In 2015 IEEE International Conference on Computer Vision (ICCV), pages 4660–4668, 2015. 2015年IEEE International Conference on Computer Vision (ICCV)、4660-4668頁。 0.36
3 [25] Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, and Vittorio Murino. 3 Loris Bazzani, Marco Cristani, Diego Tosato, Michela Farenzena, Giulia Paggetti, Gloria Menegaz, Vittorio Murino。
訳抜け防止モード: 3 [25 ]ロリス・バザニ、マルコ・クリスタニ、ディエゴ・トサト、 Michela Farenzena, Giulia Paggetti, Gloria Menegaz, Vittorio Murino
0.58
Social interactions by visual focus of attention in a three-dimensional environment. 三次元環境における視覚的注目による社会的相互作用 0.78
Expert Systems, 30(2):115–127, 2013. エキスパートシステム、30(2):115–127, 2013。 0.82
3 [26] Daniel Chaffin, Ralph Heidl, John R Hollenbeck, Michael Howe, Andrew Yu, Clay Voorhees, and Roger Calantone. 3 Daniel Chaffin氏、Ralph Heidl氏、John R Hollenbeck氏、Michael Howe氏、Andrew Yu氏、Clay Voorhees氏、Roger Calantone氏。 0.56
The promise and perils of wearable sensors in organizational research. 組織研究におけるウェアラブルセンサーの約束と危険。 0.69
Organizational Research Methods, 20(1):3–31, 2017. 組織研究方法, 20(1):3-31, 2017 0.82
3, 4 12 3, 4 12 0.43
英語(論文から抽出)日本語訳スコア
[27] Alessio Rosatelli, Ekin Gedik, and Hayley Hung. 27]アレッシオ・ロザテッリ、エキン・ギディク、ヘイリーが絞首刑に処せられた。 0.40
Detecting f-formations roles in crowded social scenes with wearables: Combining proxemics dynamics using lstms. 混み合った社会場面におけるf-formationsの役割検出とウェアラブル:lstmsを用いたプロキシダイナミックスの組み合わせ 0.58
In 2019 8th International Conference on Affective Computing and Intelligent Interaction Workshops and Demos (ACIIW), pages 147–153, 2019. 2019年、第8回感情的コンピューティングとインテリジェントインタラクションワークショップとデモ(aciiw)に関する国際会議が開催された。 0.63
doi: 10.1109/ACIIW.2019.8 925179. 10.1109/ACIIW.2019.8 925179。 0.48
4 [28] Stephanie Tan, David M. J. Tax, and Hayley Hung. 4 28]stephanie tan、david m. j. tax、hayley hang。 0.49
Multimodal joint head orientation estimation in interacting groups via proxemics and interaction dynamics. 近似と相互作用ダイナミクスによる相互作用群における多重モーダル結合頭部方向推定 0.71
Proc. ACM Interactive, Mobile, Wearable, and Ubiquitous Technology, 5(1), March 2021. Proc ACM Interactive, Mobile, Wearable, and Ubiquitous Technology, 5(1), 2021年3月 0.52
4 [29] C. Cattuto, W. V. D. Broeck, A. Barrat, V. Colizza, J. Pinton, and Alessandro Vespignani. 4 C. Cattuto, W. V. D. Broeck, A. Barrat, V. Colizza, J. Pinton, Alessandro Vespignani 0.42
Dynamics of person-to-person interactions from distributed rfid sensor networks. ダイナミクス 分散rfidセンサネットワークからの対人インタラクション。 0.62
PLoS ONE, 5, 2010. PLOS ONE, 2010年5月5日。 0.66
4 [30] Marion Hoffman, Per Block, Timon Elmer, and Christoph Stadtfeld. 4 30] マリオン・ホフマン、パーブロック、ティモン・エルマー、クリストフ・シュタットフェルト 0.49
A model for the dynamics of face-to- 対面運動の力学モデル- 0.57
face interactions in social groups. 社会集団における対面相互作用です 0.67
Network Science, 8(S1):S4–S25, 2020. Network Science, 8(S1): S4–S25, 2020。 0.83
doi: 10.1017/nws.2020.3. doi: 10.1017/nws.2020.3。 0.44
[31] Martin Atzmueller and Florian Lemmerich. マルティン・アツミュラー(Martin Atzmueller)とフロリアン・レンメルヒ(Florian Lemmerich)。 0.53
Homophily at academic conferences. アカデミック・コンファレンスで同性。 0.57
In Companion Proceedings of the The Web Conference 2018, WWW ’18, page 109–110, Republic and Canton of Geneva, CHE, 2018. Companion Proceedings of the Web Conference 2018, WWW ’18, page 109–110, Republic and Canton of Geneva, CHE, 2018。
訳抜け防止モード: The Web Conference 2018のコンパニオンで、WWWは18。 109–110, Republic and Canton of Geneva, CHE, 2018
0.65
International World Wide Web Conferences Steering Committee. International World Wide Web Conferences Steering Committee(英語) 0.84
[32] Daniel Olguín Olguín, Benjamin N Waber, Taemie Kim, Akshay Mohan, Koji Ara, and Alex Pentland. Daniel Olguín Olguín氏、Benjamin N Waber氏、Taemie Kim氏、Akshay Mohan氏、Ara Koji氏、Alex Pentland氏。
訳抜け防止モード: 32]daniel olguín olguín、benjamin n waber、taemie kim。 アクシャイ・モハン、コジ・アラ、アレックス・ペントランド。
0.45
Sensible organizations: Technology and methodology for automatically measuring organizational behavior. 賢明な組織: 組織行動を自動的に計測する技術と方法論。 0.70
IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 39(1):43–55, 2008. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 39(1):43–55, 2008 0.43
4 [33] Timon Elmer, Krishna Chaitanya, Prateek Purwar, and Christoph Stadtfeld. 4 Timon Elmer氏、Krishna Chaitanya氏、Plateek Purwar氏、Christoph Stadtfeld氏。 0.37
The validity of rfid badges measuring face-to-face interactions. 対面相互作用を測定するrfidバッジの妥当性 0.82
Behavior Research Methods, 51, 04 2019. 行動調査法 51, 04 2019。 0.56
doi: 10.3758/ s13428-018-1180-y. doi 10.3758/s13428-018-1 180-y。 0.21
4 [34] Go pro 4 [34]号 プロ 0.47
black. CHDHX-701-master.htm l. 黒。 chdhx-701-master.htm l。 0.55
4 hero 7 https://gopro.com/en /nl/shop/cameras/her o7-black/ 4 英雄 7 https://gopro.com/en /nl/shop/cameras/her o7-black/ 0.42
[35] Oren Lederman, Akshay Mohan, Dan Calacci, and Alex Sandy Pentland. Oren Lederman氏、Akshay Mohan氏、Dan Calacci氏、Alex Sandy Pentland氏。 0.68
Rhythm: A unified measurement rhythm (複数形 rhythms) 0.56
platform for human organizations. 人間組織のためのプラットフォームです 0.69
IEEE MultiMedia, 25(1):26–38, 2018. ieee multimedia, 25(1):26-38, 2018年。 0.62
4 [36] F. Ringeval, A. Sonderegger, J. Sauer, and D. Lalanne. 4 F. Ringeval, A. Sonderegger, J. Sauer, D. Lalanne. 0.40
Introducing the recola multimodal corpus of remote collaborative and affective interactions. リモート・コラボレーティブおよび情緒的相互作用におけるrecola multimodal corpusの導入 0.79
In 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), pages 1–8, 2013. 2013年の第10回IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), page 1–8, 2013
訳抜け防止モード: 2013年第10回IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG) 1-8頁、2013年。
0.82
5 [37] Laura Cabrera-Quiros and Hayley Hung. 5 [37]Laura Cabrera-QuirosとHayley Hung。 0.64
Who is where? matching people in video to wearable acceleration during crowded mingling events. どこにいるの? 混雑した混み合いイベント中にビデオ中の人々をウェアラブルアクセラレーションにマッチングします。 0.66
In Proceedings of the 24th ACM international conference on Multimedia, pages 267–271, 2016. 第24回acm国際マルチメディア会議の議事録、2016年267-271頁。 0.74
5, 11 [38] Laura Cabrera-Quiros and Hayley Hung. 5, 11 [38]Laura Cabrera-QuirosとHayley Hung。 0.85
A hierarchical approach for associating body-worn sensors to video regions in crowded mingling scenarios. 混み合った混み合いシナリオにおけるボディーワーンセンサとビデオ領域を関連付ける階層的アプローチ 0.69
IEEE Transactions on Multimedia, 21(7):1867–1879, 2018. ieee transactions on multimedia, 21(7):1867–1879, 2018を参照。 0.61
5, 11 [39] Hayley Hung, Chirag Raman, Ekin Gedik, Stephanie Tan, and Jose Vargas Quiros. 5, 11 39]Hayley Hung, Chirag Raman, Ekin Gedik, Stephanie Tan, Jose Vargas Quiros。 0.60
Multimodal data In Proceedings of the 27th ACM International 第27回acm国際手続におけるマルチモーダルデータ 0.87
collection for social interaction analysis in-the-wild. ウィルドにおけるソーシャルインタラクション分析のためのコレクション。 0.51
Conference on Multimedia, pages 2714–2715, 2019. マルチメディアに関する会議』2714-2715頁、2019年。 0.61
5 [40] Ekin Gedik and Hayley Hung. 5 40] ekin gedik と hayley は吊り下げた。 0.54
Confflow: A tool to encourage new diverse collaborations. Confflow: 新しい多様なコラボレーションを促進するツール。 0.79
In Proceedings of the 28th ACM International Conference on Multimedia, pages 4562–4564, 2020. 手続き中 第28回acm国際マルチメディア会議のページ4562-4564, 2020。 0.66
5 [41] Covfee: Continuous Video Feedback Tool. 5 [41] covfee: 連続ビデオフィードバックツール。 0.59
Jose Vargas. 6 ヨーゼ・ヴァルガス 6 0.46
[42] Computer Vision Annotation Tool (CVAT). [42]コンピュータビジョンアノテーションツール(CVAT)。 0.55
6 [43] Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollár. 6 43]tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollár。
訳抜け防止モード: 6 [43 ]ツン - 李林、マイケル・ミア、セルゲイ・ベロンギー Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona Deva Ramanan、C. Lawrence Zitnick、Piotr Dollár。
0.60
Microsoft COCO: Common Objects in Context. Microsoft COCO: コンテキスト内の共通オブジェクト。 0.82
arXiv:1405.0312 [cs], February 2015. arXiv:1405.0312 [cs], February 2015 0.46
6 [44] Philipp Müller, Michael Xuelin Huang, and Andreas Bulling. 6 44] Philipp Müller、Michael Xuelin Huang、Andreas Bulling。 0.38
Detecting Low Rapport During Natural Interactions in Small Groups from Non-Verbal Behaviour. 非言語行動による小グループにおける自然相互作用中の低ラプト検出 0.68
In 23rd International Conference on Intelligent User Interfaces. 第23回intelligent user interface国際会議に参加して 0.76
ACM, 2018. 2018年、ACM。 0.85
ISBN 978-1-4503-4945-1. ISBN 978-1-4503-4945-1。 0.18
doi: 10.1145/3172944.3172 969. doi 10.1145/3172944.3172 969 0.28
6 [45] Chirag Raman and Hayley Hung. 6 チラグ・ラマンとヘイリー・ハング。 0.39
Towards automatic estimation of conversation floors within F-formations. F-formationsにおける会話フロアの自動推定に向けて 0.68
arXiv:1907.10384 [cs], July 2019. arXiv:1907.10384 [cs], July 2019 0.47
6, 10 [46] Cigdem Beyan, Muhammad Shahid, and Vittorio Murino. 6, 10 [46]シグデム・ベヤン、ムハンマド・シャヒド、ヴィットリオ・ムリーノ 0.40
RealVAD: A Real-world Dataset and A Method for Voice Activity Detection by Body Motion Analysis. realvad: 実世界のデータセットと体の動き分析による音声活動検出方法。 0.78
x, 9210(c):1–16, 2020. x, 9210(c):1–16, 2020。 0.45
doi: 10.1109/tmm.2020. 10.1109/tmm.2020 0.26
3007350. 6 3007350. 6 0.43
13 13 0.85
英語(論文から抽出)日本語訳スコア
[47] Muhammad Shahid, Cigdem Beyan, and Vittorio Murino. [47]Muhammad Shahid、Cigdem Beyan、Vittorio Murino。 0.31
Voice activity detection by upper body motion analysis and unsupervised domain adaptation. 上半身運動解析と非教師なし領域適応による音声活動検出 0.75
Proceedings - 2019 International Conference on Computer Vision Workshop, ICCVW 2019, pages 1260–1269, 2019. proceedings - 2019 international conference on computer vision workshop, iccvw 2019, pages 1260–1269, 2019 (英語) 0.44
doi: 10.1109/ICCVW.2019.0 0159. doi: 10.1109/iccvw.2019.0 0159。 0.40
6 [48] Adam Kendon. 6 アダム・ケンドン(Adam Kendon)。 0.54
Conducting interaction: Patterns of behavior in focused encounters, volume 7. 行為の相互作用: 集中した出会いにおける行動パターン、巻7。 0.67
CUP Archive, 1990. カップ 1990年、アーカイブ。 0.63
7, 10 [49] Daniel Gatica-Perez. 7, 10 ダニエル・ガティカ=ペレス(Daniel Gatica-Perez)。 0.40
Analyzing group interactions in conversations: a review. 会話におけるグループインタラクションの分析: レビュー。 0.81
In 2006 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, pages 41–46, 2006. 2006年、IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, page 41–46, 2006。 0.45
doi: 10.1109/MFI.2006.265 658. doi: 10.1109/mfi.2006.265 658。 0.41
8 [50] Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. 8 50]カイミング・彼、ジョージア・グキオクサーリ、ピョートル・ドルラール、ロス・ガーシック 0.47
Mask r-cnn. In Proceedings of the IEEE 仮面r-cnn。 IEEEの成果 0.37
international conference on computer vision, pages 2961–2969, 2017. コンピュータビジョン国際会議』2961-2969頁、2017年。 0.79
8 [51] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. 8 [51]ウーユキシン、アレクサンドル・キリロフ、フランシスコ・マッサ、ワン・ヤン・ロ、ロス・ギルシック 0.52
Detectron2. detectron2 の略。 0.40
https: //github.com/faceboo kresearch/detectron2 , 2019. https: github.com/facebookr esearch/detectron2、2019年。 0.39
8 [52] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. 8 52]tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C Lawrence Zitnick。
訳抜け防止モード: 8 [52 ]ツン - 李林、マイケル・ミア、セルゲイ・ベロンギー James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár C Lawrence Zitnick氏。
0.61
Microsoft coco: Common objects in context. Microsoft Coco: コンテキスト内の共通オブジェクト。 0.83
In European conference on computer vision, pages 740–755. 欧州のコンピュータビジョン会議において、740-755頁。 0.72
Springer, 2014. 8 [53] Jiaxing Shen, Oren Lederman, Jiannong Cao, Florian Berg, Shaojie Tang, and Alex Sandy Pentland. 2014年春。 8 53]Jiaxing Shen、Oren Lederman、Jiannong Cao、Florian Berg、Shaojie Tang、Alex Sandy Pentland。
訳抜け防止モード: 2014年春。 8 53)jiaxing shen, oren lederman, jiannong cao フロリアン・バーグ、シャオジ・タン、アレックス・サンディ・ペントランド。
0.48
GINA: Group Gender Identification Using Privacy-Sensitive Audio Data. GINA:プライバシー感性音声データを用いたグループジェンダー識別 0.87
Proceedings - IEEE International Conference on Data Mining, ICDM, 2018-Novem:457–466, 2018. Proceedings - IEEE International Conference on Data Mining, ICDM, 2018-Novem:457–466, 2018 0.43
ISSN 15504786. ISSN 15504786。 0.82
doi: 10.1109/ICDM. doi: 10.1109/icdm。 0.52
2018.00061. 2018.00061. 0.35
9 [54] Pranay Gupta, Anirudh Thatipelli, Aditya Aggarwal, Shubh Maheshwari, Neel Trivedi, Sourav Das, and Ravi Kiran Sarvadevabhatla. 9 プラナイ・グプタ、Anirudh Thatipelli、Aditya Aggarwal、Shubh Maheshwari、Neel Trivedi、Sourav Das、Ravi Kiran Sarvadevabhatla。 0.49
Quo Vadis, Skeleton Action Recognition ? quo vadis、スケルトンアクション認識? 0.48
arXiv:2007.02072 [cs], July 2020. arXiv:2007.02072 [cs], July 2020 0.46
9 [55] Hassan Ismail Fawaz, Benjamin Lucas, Germain Forestier, Charlotte Pelletier, Daniel F. Schmidt, Jonathan Weber, Geoffrey I. Webb, Lhassane Idoumghar, Pierre-Alain Muller, and François Petitjean. 9 Hassan Ismail Fawaz氏、Benjamin Lucas氏、Germain Forestier氏、Charlotte Pelletier氏、Daniel F. Schmidt氏、Jonathan Weber氏、Geoffrey I. Webb氏、Lhassane Idoumghar氏、Pierre-Alain Muller氏、François Petitjean氏。
訳抜け防止モード: 9 ハッサン・イスメール・ファワズ ベンジャミン・ルーカス ジェルマン・フォレスジャー シャーロット・ペレティエ、ダニエル・f・シュミット、ジョナサン・ウェーバー、ジェフリー・i・ウェッブ lhassane idoumghar, pierre - アラン・ミュラー、フランソワ・プティジャン。
0.45
InceptionTime: Finding AlexNet for Time Series Classification. InceptionTime: 時系列分類のためのAlexNetを見つける。 0.80
2019. 9 [56] Jun Liu, Amir Shahroudy, Mauricio Perez, Gang Wang, Ling-Yu Duan, and Alex C. Kot. 2019. 9 [56]Jun Liu、Amir Shahroudy、Mauricio Perez、Gang Wang、Ling-Yu Duan、Alex C. Kot。 0.41
NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding. NTU RGB+D 120: 3Dヒューマンアクティビティ理解のための大規模ベンチマーク。 0.64
IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(10):2684–2701, October 2020. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(10):2684–2701, October 2020 0.46
ISSN 0162-8828, 2160-9292, 1939-3539. issn 0162-8828, 2160-9292, 1939-3539。 0.39
doi: 10.1109/TPAMI.2019.2 916873. doi: 10.1109/tpami.2019.2 916873。 0.39
9 [57] Tadas Baltrusaitis, Chaitanya Ahuja, and Louis-Philippe Morency. 9 [57]アダス・バルトルサティス、シャイタニア・アフジャ、ルイ=フィリップ・モランシー。 0.36
Multimodal machine learning: A survey マルチモーダル機械学習に関する調査 0.70
and taxonomy. IEEE Trans. そして分類学です ieeeトランス。 0.52
Pattern Anal. Mach. パターンアナル。 マッハ 0.43
Intell. , 41(2):423–443, February 2019. インテリ。 41(2):423-443,2019年2月。 0.59
10 [58] OpenCV. 10 58]opencv。 0.50
Open source computer vision library. オープンソースのコンピュータビジョンライブラリ。 0.84
https://github.com/o pencv/opencv, 2015. https://github.com/o pencv/opencv, 2015を参照。 0.47
1 [59] Idiap multi camera calibration suite. 1 [59] idiapマルチカメラキャリブレーションスイート。 0.55
https://github.com/i diap/multicamera-cal ibration. https://github.com/i diap/multicamera-cal ibration 0.20
1 [60] Tdkicm20948. 1 [60]Tdkicm20948。 0.66
https://invensense.t dk.com/products/moti on-tracking/9-axis/ https://invensense.t dk.com/products/moti on-tracking/9-axis/ 0.11
icm-20948/. icm-20948。 0.31
Accessed: 2021-10-15. 2021-10-15年登場。 0.44
1 [61] Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé Iii, and Kate Crawford. 1 ティムニット・ゲブル、ジェイミー・モーゲンステルン、ブライアンナ・ヴェッキオーネ、ジェニファー・ウォルトマン・ヴォーン、ハンナ・ワラッハ、ハル・ダウメ3世、ケイト・クロフォード。
訳抜け防止モード: 1 [61 ]Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé Iii そしてケイト・クロフォード。
0.61
Datasheets for datasets. データセット用のデータシート。 0.58
Communications of the ACM, 64(12): 86–92, 2021. acm, 64(12): 86-92, 2021。 0.53
2 14 2 14 0.42
英語(論文から抽出)日本語訳スコア
ConfLab: A Rich Multimodal Multisensor Dataset of ConfLab: リッチなマルチモーダルマルチセンサデータセット 0.49
Free-Standing Social Interactions In-the-Wild フリースタンディング型ソーシャルインタラクション 0.63
Appendices A Sensor Calibration For computing the camera extrinsics, we marked a grid of 1 m × 1 m squares in tape across the interaction area floor. 付録 カメラの過渡性を計算するためのセンサキャリブレーションでは、相互作用領域の床に1m×1mの二乗の格子を配置した。 0.60
We ensured line alignment and right angles using a laser level tool (STANLEY Cross90). レーザレベルツール(STANLEY Cross90)を用いて直線アライメントと直角アングルを確保した。 0.85
For computing the camera intrinsics, we used the OpenCV asymmetric circles grid pattern [58]. カメラ内在性を計算するために,opencv非対称円状格子パターン [58] を用いた。 0.80
The calibration was performed using the Idiap multi camera calibration suite [59]. Idiap Multi Camera calibration suite[59]を用いて校正を行った。 0.80
All wearable sensors include one TDK InvenSense ICM-20948 IMU[60] unit that provides run time calibration. すべてのウェアラブルセンサーには、ランタイムキャリブレーションを提供するTDK InvenSense ICM-20948 IMU[60]ユニットがある。 0.65
To establish a correspondence with the camera frame of reference, the sensors were lined up against a common reference-line visible in the cameras to acquire an alignment so that the camera data can offer drift and bias correction for the wearable sensors. 基準のカメラフレームとの対応を確立するために、センサは、カメラで見える共通の参照線に対して並べられ、カメラデータがウェアラブルセンサーにドリフトおよびバイアス補正を提供できるようにアライメントを取得する。 0.79
B Person and Keypoint Detection B 人物とキーポイント検出 0.84
B.1 Data Cleaning B.1 データクリーニング 0.52
Because of annotation errors, there are incorrectly labeled or missing keypoints in many frames. アノテーションエラーのため、多くのフレームに誤ったラベル付けやキーポイントの欠落がある。 0.65
One error is misalignment of participants IDs during annotation. 1つのエラーは、アノテーション中の参加者idの誤認である。 0.50
We remove these misaligned keypoints by using outlier detection, i.e., we measure the median distance between different keypoints and remove the keypoints when the distances of those keypoints from all other keypoints of the same persons are much higher (4 times). 例えば、異なるキーポイント間の中央値距離を計測し、同じ人の他のすべてのキーポイントからのキーポイントの距離がはるかに高い場合(4倍)、キーポイントを削除する。
訳抜け防止モード: 外乱検出(outlier detection)、すなわち、不整合キーポイントを除去する。 我々は、異なるキーポイント間の中央値距離を測定し、同じ人の他のキーポイントからの距離がはるかに高い場合(4倍)、キーポイントを除去する。
0.77
The second error is missing annotation. 2つめのエラーはアノテーションの欠如です。 0.56
As the bounding box of a person is inferred from the keypoint annotations, missing keypoints might result in wrong bounding box. キーポイントアノテーションから人のバウンディングボックスが推論されるため、キーポイントの欠如は間違ったバウンディングボックスにつながる可能性がある。 0.65
We check how many missing keypoints there for a person, and if there is more than 50% keypoints missing we remove the person bounding box and keypoints from the ground-truth. キーポイントの欠落数をチェックし、50%以上のキーポイントが欠落している場合、その人のバウンディングボックスとキーポイントを地道から取り除きます。 0.68
Moreover, if there’s more than 10% missing keypoints in an image, we also remove that image from the dataset. さらに、画像に10%以上のキーポイントが欠けている場合、そのイメージをデータセットから削除します。 0.72
This results in a training set with 139k frames (1588k person instances) and a test set with 28k frames (405k person instances). これにより、139kフレーム(1588k人インスタンス)と28kフレーム(405k人インスタンス)のテストセットがトレーニングセットになる。 0.78
Table 6: Experiments with different number of keypoints. 表6: キーポイントの数が異なる実験。 0.83
More keypoints improve keypoint localization. より多くのキーポイントがキーポイントのローカライゼーションを改善する。 0.42
#Keypoints APOKS 50 19.2 5 9 22.2 27.9 11 17 33.3 #Keypoints APOKS 50 19.2 5 9 22.2 27.9 11 17 33.3 0.36
5.1 6.1 7.8 10.7 5.1 6.1 7.8 10.7 0.23
APOKS APOKS APOKS APOKS 0.42
75 1.0 1.3 2.5 3.9 75 1.0 1.3 2.5 3.9 0.25
B.2 Experiments with Number of Keypoints B.2 キーポイント数による実験 0.58
In Table 6, we show keypoint detection scores for experiments with different number of keypoints. 表6では、異なる数のキーポイントを持つ実験のキーポイント検出スコアを示す。 0.78
We first focus on the five upper body keypoints: {head, nose, neck, rightShoulder, leftShoulder}. まず、頭、鼻、首、右肩、左肩の5つの上半身のキーポイントに注目した。 0.67
We then additionally considered the torso region keypoints for a total of nine: {rightElbow, rightWrist, leftElbow, leftWrist}. さらに、トーソ領域のキーポイントを合計9つ考慮した: {rightElbow, rightWrist, leftElbow, leftWrist}。 0.75
Finally, we add the hip keypoints {rightHip, leftHip} to the set. 最後に、セットにhipキーポイント {rightHip, leftHip} を追加します。 0.72
The experiments in the main paper are performed with 17 keypoints. メインペーパーの実験は17のキーポイントで行われます。 0.80
Table 6 suggests that more keypoints result in better keypoint-localizatio n. 表6は、より多くのキーポイントがキーポイント-ローカライズを改善することを示唆している。 0.44
1 1 0.42
英語(論文から抽出)日本語訳スコア
C Datasheet For ConfLab conflab用cデータシート 0.74
This document is based on Datasheets for Datasets by Gebru et al [61]. この文書はGebru氏らのDatasheets for Datasetsに基づいています [61]。 0.74
Please see the most updated version here. 最新のバージョンはこちらでご覧ください。 0.76
MOTIVATION For what purpose was the dataset created? モチベーション データセットはどのような目的で作成されたのか? 0.54
Was there a specific task in mind? 特定のタスクを念頭に置いていましたか? 0.57
Was there a specific gap that needed to be filled? 埋める必要がある特定のギャップがありましたか? 0.71
Please provide a description. 説明をお願いします。 0.66
There are two broad motivations for ConfLab: first, to enable the privacy-preserving, multimodal study of natural social conversation dynamics in a mixed-acquaintance, mixed-seniority international community; second, to bring the higher fidelity of wired in-the-lab recording setups to in-the-wild scenarios, enabling the study of fine time-scale social dynamics in-the-wild. conflabには2つの大きな動機がある: 1つは、複数の知人、混成高齢者の国際社会における、自然の社会的会話のダイナミクスのプライバシー保護、マルチモーダルな研究を可能にすることである。
訳抜け防止モード: conflabには2つの大きな動機がある。 混合知人における自然社会会話のダイナミクスに関するマルチモーダル研究 mixed - seniority international community ; second, to bring the higher fidelity of wired in - the - lab recording setups to in - the - wild scenarios (英語) ファインタイムの研究を可能にする - ソーシャルダイナミクスをスケールする - ワイルド。
0.69
Existing in-the-wild datasets are limited by the lack of spatial and temporal resolution of the data, and inadequate synchronization guarantees between the data streams. 既存のWildデータセットは、データの空間的および時間的解像度の欠如によって制限され、データストリーム間の同期保証が不十分である。 0.70
This often requires modeling simplifications such as the summarizing of features over rolling windows. これはしばしばローリングウィンドウ上の機能の要約のようなモデリングの単純化を必要とする。 0.66
On the other hand, past high-fidelity data collections have captured constrained social interactions in lab settings. 一方,過去の高忠実度データ収集では,実験室での社会的相互作用が制限されている。 0.64
Our following contributions open the gateway to a wide-range of multi/cross modal behavior tasks, of importance to multiple fields: 以下のコントリビューションは、多分野において重要な、多種多種多様行動タスクへのゲートウェイを開くものである。 0.68
(i) enable finer temporal scale RQs: A sub-second expected cross modal latency of 13 ms for the first time along with higher sampling rate of features (60 fps video, 56 Hz IMU) enables the in-the-wild study of nuanced time-sensitive social behaviors like mimicry and synchrony which need tolerances as low as 40 ms[42] (Sec.3.2, L80-83). (i)より微細な時間スケールRQを可能にする: 秒以下のクロスモーダルレイテンシを初めて13msと高サンプリングレート(60fpsビデオ、56Hz IMU)とともに、40ms[42] (Sec.3.2, L80-83) の耐性を必要とする模倣や同期のような微妙な時間依存性の社会行動の研究を可能にする。 0.81
Prior works coped with lower tolerances by windowing their inputs [15,25,40]. 以前の作業では、入力[15,25,40]をウィンドウ化することで、耐性の低下に対処した。 0.44
(ii) articulated pose: first in-the-wild social interaction dataset with full body poses (Tab. 1), enabling improvements in (ii)調音ポーズ:全体ポーズを用いた第1回体内ソーシャルインタラクションデータセット(第1報)により、改善が可能となる。
訳抜け防止モード: (ii)構音ポーズ : first in - the- wild social interaction dataset with full body pose (tab . 1) 改善を可能にする
0.87
(a) pose estimation and tracking in-the-wild (see next point), (a)ポーズの推定・追跡(次点参照) 0.52
(b) pose-based recognition of social actions (unexplored in aerial perspective), (b)ポーズに基づく社会的行動の認識(空中的視点では未探究) 0.80
(c) pose-based F-formation estimation (not possible using previous datasets (Tab. 1) and methods [29,46,49,51]), c)ポーズに基づくf-formation推定(以前のデータセット(tab. 1)とメソッド[29,46,49,51]では不可能) 0.71
(d) the direct study of interaction dynamics using full body poses (previously limited to lab settings [31]). (d)フルボディポーズを用いたインタラクションダイナミクスの直接研究(以前は実験室設定に限られていた[31])。 0.81
(iii) subtle body dynamics: first inclusion of a full 9-axis IMU for improved body dynamics capture, also at higher rates. (三)微妙な身体動態:第一に、身体動態を向上するための完全な9軸IMUを高速度で含む。
訳抜け防止モード: (iii)微妙な体動力学 : 第1報 体動力学改善のための完全9軸imuの包含 また、高いレートで。
0.77
Previous rates were found insufficient for downstream tasks (L260-268). ダウンストリームタスクでは,それまでのレートでは不十分であった(l260-268)。 0.40
Who created this dataset (e g , which team, research group) and on behalf of which entity (e g , company, institution, organization)? 誰がこのデータセット(例えば、どのチーム、研究グループ)を作り、どのエンティティ(例えば、会社、機関、組織)を代表したのですか? 0.79
YOUR ANSWER HERE What support was needed to make this dataset? あなたの答えは このデータセットを作るには、どのようなサポートが必要でしたか? 0.61
(e g who funded the creation of the dataset? If there is an associated grant, provide the name of the grantor and the grant name and number, or if it was supported by a company or government agency, give those details.) (例)データセットの作成に資金を貸した者。当該助成金がある場合は、付与者の名称及び付与名及び番号、会社又は政府機関に支援された場合は、その詳細を記載する。) 0.68
YOUR ANSWER HERE Any other comments? あなたの答えは 他にコメントは? 0.71
YOUR ANSWER HERE COMPOSITION あなたの答えは 構成 0.55
What do the instances that comprise the dataset represent (e g , documents, photos, people, countries)? データセットを構成するインスタンス(ドキュメント、写真、人々、国など)は、どのようなものを表していますか? 0.72
Are there multiple types of instances (e g , movies, users, and ratings; people and interactions between them; nodes and edges)? さまざまなタイプのインスタンス(映画、ユーザ、評価、人々とそれらの間のインタラクション、ノードとエッジなど)がありますか? 0.72
Please provide a description. 説明をお願いします。 0.66
The dataset contains multimodal recordings of people interacting within a set space during a computer science conference. データセットは、コンピュータサイエンスの会議で設定された空間内で相互作用する人々のマルチモーダルな記録を含んでいる。 0.62
Some of the modalities (eg. acceleration) were recorded per participant while others (eg. video) capture multiple people in the same media file. いくつかのモダリティ(加速度など)は参加者毎に記録され、他の(ビデオなど)は同一のメディアファイルで複数の人をキャプチャした。 0.75
Additionally, groups of conversing participants were identified via annotation of F-Formations. また,f-formationsのアノテーションを用いて会話参加者のグループを同定した。 0.60
Since the dataset can be used to analyze データセットは分析に使用できるので 0.84
2 2 0.42
英語(論文から抽出)日本語訳スコア
behavior at the individual or group level, we consider people and conversing groups (F-Formations) to be the main instances in our dataset. 個人やグループレベルでの振る舞いでは、人や会話グループ(F-Formation)がデータセットの主要なインスタンスであると考えています。 0.69
How many instances are there in total (of each type, if appropriate)? 合計で何つのインスタンスがありますか(それぞれの型が適切であれば)? 0.73
The dataset contains: • 48 people • 119 distinct F-formations データセットには •48人•119個の異なるF形 0.69
Does the dataset contain all possible instances or is it a sample (not necessarily random) of instances from a larger set? データセットには、可能なすべてのインスタンスが含まれているのか、それとも、より大きなセットのインスタンスのサンプル(必ずしもランダムではない)なのか? 0.56
If the dataset is a sample, then what is the larger set? もしデータセットがサンプルなら、もっと大きなデータセットは何ですか? 0.80
Is the sample representative of the larger set (e g , geographic coverage)? サンプルは、より大きな集合(例えば、地理的カバレッジ)の代表ですか? 0.77
If so, please describe how this representativeness was validated/verified. もしそうなら、この代表性がどのように検証/検証されたかを説明してください。 0.44
If it is not representative of the larger set, please describe why not (e g , to cover a more diverse range of instances, because instances were withheld or unavailable). より大きなセットを代表していない場合は、なぜそうしないのかを説明してください(インスタンスが保持できない、あるいは使用できないため、より多様なインスタンスをカバーするなど)。 0.63
The participants in our data collection are a sample of the conference attendees. データ収集の参加者は、カンファレンス参加者のサンプルです。 0.61
Participants were recruited via the conference website, social media posting, and approaching them in person during the conference. 参加者はカンファレンスのウェブサイト、ソーシャルメディアの投稿を通じて募集され、会議中に直接アプローチした。 0.69
Because participation in such a data collection can only be voluntary, the sample was not pre-designed and may not be representative of the larger set. このようなデータ収集に参加することは自発的なことしかできないため、サンプルは事前設計されておらず、より大きな集合を表すものではない。
訳抜け防止モード: このようなデータ収集に参加するのは 自発的ですから サンプルは事前設計ではなく、より大きな集合を表すものではない。
0.70
What data does each instance consist of? それぞれのインスタンスはどのデータで構成されていますか。 0.55
features? In either case, please provide a description. 特徴? いずれの場合も説明をお願いします。 0.74
Each person in the scene wore a wearable device (Mingle Midge, in a compact conference badge form factor to be hung around the neck) which recorded the individual signals that are part of the dataset: シーン内の各人は、データセットの一部である個々のシグナルを記録するウェアラブルデバイス(コンパクトなカンファレンスバッジフォームファクタで首に掛けられる)を使用していました。
訳抜け防止モード: シーンの各人はウェアラブルデバイスを着ていました (中途半端に、コンパクトな会議バッジのフォームファクターを首に掛けておく。) データセットの一部である個々の信号を 記録しています
0.74
“Raw” data (e g , unprocessed text or images) or あるいは“Raw”データ(例:未処理のテキストや画像) 0.78
• Low-freq. audio (1200 Hz), uncompressed • BT proximity (5 Hz) • 9-axis IMU (56 Hz) •低freq。 オーディオ(1200Hz)、非圧縮•BT近接(5Hz)•9軸IMU(56Hz) 0.60
Additionally, video cameras placed with a top-down view over the interaction area recorded all the people in it. さらに、対話エリア上のトップダウンビューを備えたビデオカメラが、その中のすべての人々を記録した。 0.66
Ten cameras were placed directly over-head at 1m intervals along the longer axis of the rectangle-shaped interaction space in such a way that the whole space was covered with significant overlap between adjacent cameras. 10台のカメラが長方形の相互作用空間の長い軸に沿って1m間隔で直接頭上に配置された。
訳抜け防止モード: 10台のカメラが直接配置された -長方形の長い軸に沿って1m間隔で頭。 このような形の相互作用空間は 空間全体が 隣のカメラの間に 大きく重なっていた
0.72
One of the cameras failed during the recording, but the space underneath it was captured by the adjacent cameras. カメラの1つが記録中に故障したが、その下の空間は隣のカメラによって撮影された。 0.68
The number of cameras a subject is captured in varies according to their positioning, but each subject in the scene is in the field of view of at least one camera. 被写体が撮影するカメラの数は位置によって異なるが、シーン内の各被写体は少なくとも1台のカメラの視野内にある。 0.75
Additionally, a 16-minute segment of the interaction was annotated with the following individual signals: さらに、対話の16分間のセグメントは、以下の個別信号に注釈付けされた。 0.65
• 2d body poses (17 keypoints per person), annotated in 5 of the 10 overhead cameras. 2d body pose 17 keypoints per person)は、頭上カメラ10台のうち5台にアノテートされています。 0.60
We chose to annotate every other camera due to the significant overlap between adjacent cameras. 隣り合うカメラが重なり合うので、私たちは他のカメラに注釈をつけることにした。 0.62
Using only every other camera still gave us good coverage of the people in the scene. 他のすべてのカメラのみを使用することで、シーン内の人々の十分なカバレッジが得られました。
訳抜け防止モード: 他のカメラだけを使って それでも、現場の人々をよく取り上げてくれた。
0.71
For pragmatic reasons, annotations were done per video. 現実的な理由で、アノテーションはビデオごとに行われた。 0.56
All the people in a video were annotated, for each of the 5 cameras, and tagged with a participant ID. ビデオのすべての人は5台のカメラそれぞれに注釈を付け、参加者IDがタグ付けされた。 0.74
• Speaking status annotations. •ステータスアノテーションを参照。 0.77
These include a) a binary signal (60Hz) indicating whether the person is perceived to be speaking or not; 以下を含む。 a) 人が話していると認識されているか否かを示す二分信号(60hz) 0.60
b) continuous confidence value (60Hz) indicating the degree of confidence of the annotator in their speaking status assessment. b) 発話状態評価における注釈者の信頼度を示す連続信頼度値(60hz) 0.72
These annotations were done without access to audio due to issues with the synchronization of the audio recordings at the time of annotation. これらのアノテーションは、アノテーションの時点での音声記録の同期の問題により、オーディオへのアクセスなしに行われた。 0.75
The confidence assessment is therefore largely based on the visibility of the target person and their speaking-associated gestures (eg. occlusion, orientation w.r.t. camera, visibility of the face)? したがって、信頼度評価は、主に対象人物の視認性とその発話関連ジェスチャー(排他的、指向性カメラ、顔の視認性など)に基づいて行われる。 0.69
Note: both annotations were done via continuous annotation and contain annotator delay. 注: どちらのアノテーションも連続アノテーションを通じて行われ、アノテーションの遅延を含む。 0.60
• F-formation annotations (1Hz). • F-formation アノテーション(1Hz)。 0.75
These annotations label the conversing groups in the scene これらのアノテーションはシーン内の会話グループを示す 0.72
following previous work. Is there a label or target associated with each instance? 前作に続きます。 それぞれのインスタンスに関連するラベルやターゲットはありますか? 0.56
If so, please provide a description. もしそうなら、説明してください。 0.75
YOUR ANSWER HERE 3 あなたの答えは 3 0.56
英語(論文から抽出)日本語訳スコア
Is any information missing from individual instances? 個々の例から情報がないか? 0.69
If so, please provide a description, explaining why this information is missing (e g , because it was unavailable). もしそうなら、この情報が欠落している理由(例えば、利用できないため)を説明する説明をしてください。 0.76
This does not include intentionally removed information, but might include, e g , redacted text. これは意図的に削除された情報を含まないが、例えば、修正されたテキストを含むかもしれない。 0.58
One of the 10 overhead cameras failed early in the recording. 10台のカメラのうちの1台が記録の初期に故障した。 0.63
The people in its field of view were recorded by other cameras but the video from this camera is missing in the dataset. その視野の人々は他のカメラによって記録されたが、このカメラのビデオはデータセットに欠けている。 0.81
Are relationships between individual instances made explicit (e g , users’ movie ratings, social network links)? 個々のインスタンス間の関係は明確か(例えば、ユーザーの映画評価、ソーシャルネットワークリンクなど)? 0.77
If so, please describe how these relationships are made explicit. もしそうなら、これらの関係がどのように明確化されるかを説明してください。 0.48
We make conversations between people in the scene explicit via F-formation annotations in the dataset (see above). データセット内のfフォーメーションアノテーションを通じて、シーン内の人々間の会話を明示する(上図参照)。 0.69
Pre-existing personal relationships between the subjects were not requested for privacy reasons. 既存の個人関係はプライバシー上の理由から要求されなかった。 0.72
Are there recommended data splits (e g , training, development/validati on, testing)? 推奨されるデータ分割(トレーニング、開発/検証、テストなど)はありますか? 0.81
please provide a description of these splits, explaining the rationale behind them. これらの分割について 説明して下さい 彼らの背景にある 根拠を説明してください 0.54
YOUR ANSWER HERE If so, あなたの答えは もしそうなら 0.69
Are there any errors, sources of noise, or redundancies in the dataset? データセットにはエラー、ノイズの発生源、冗長性はありますか? 0.82
If so, please provide a description. もしそうなら、説明してください。 0.75
Individual audio Because audio was recorded by a front-facing wearable device worn on the chest, it contains a significant amount of cocktail party noise and cross-contamination from other people in the scene. 個々のオーディオ 音声は胸に装着された前面ウェアラブルデバイスによって録音されたため、シーン内の他の人々からの大量のカクテルパーティーノイズとクロス汚染が含まれている。 0.70
In our experience this means that automatic speaking status detection is challenging with existing algorithms but manual annotation is possible. 私たちの経験では、既存のアルゴリズムでは自動発話状態検出が難しいが、手動アノテーションは可能である。 0.73
Videos and 2D body poses It is important to consider that the same person may appear in multiple videos at the same time if the person was in view of multiple cameras. ビデオと2Dボディポーズ 同一人物が複数のカメラで見ている場合、同時に複数のビデオに現れる可能性があると考えることが重要である。 0.82
Because 2D poses were annotated per video, the same is true of pose annotations. 2Dのポーズはビデオごとにアノテートされたので、ポーズアノテーションも同様です。 0.62
Each skeleton was tagged with a person ID, which should serve to identify such cases when necessary. 各骨格には人物idがタグ付けされ、必要に応じてそのようなケースを特定するのに役立ちます。 0.59
Is the dataset self-contained, or does it link to or otherwise rely on external resources (e g , websites, tweets, other datasets)? データセットは自己完結しているか、外部リソース(Webサイト、つぶやき、その他のデータセットなど)にリンクするか、あるいは依存しているか? 0.72
If it links to or relies on external resources, 外部リソースにリンクする、あるいは依存している場合。 0.75
a) are there guarantees that they will exist, and remain constant, over time; a) それらが存在することを保証し,かつ,一定であり続けること。 0.76
b) are there official archival versions of the complete dataset (i.e., including the external resources as they existed at the time the dataset was created); b) 完全なデータセットの公式アーカイブ版(すなわち、データセットが作成された時点で存在した外部リソースを含む。)があるか。 0.80
c) are there any restrictions (e g , licenses, fees) associated with any of the external resources that might apply to a future user? c) 将来のユーザに適用される可能性のある外部リソースに関連する制限(ライセンス、料金など)はありますか? 0.81
Please provide descriptions of all external resources and any restrictions associated with them, as well as links or other access points, as appropriate. すべての外部リソースとそれらに関連する制限、リンクやその他のアクセスポイントを適切な形で提供してください。 0.79
The dataset is self-contained. データセットは自己完結している。 0.51
Does the dataset contain data that might be considered confidential (e g , data that is protected by legal privilege or by doctor-patient confidentiality, data that includes the content of individuals’ non-public communications)? データセットには、機密と見なされる可能性のあるデータ(例えば、法的特権によって保護されたデータや、医師と患者の秘密、個人の非公共通信の内容を含むデータ)が含まれていますか?
訳抜け防止モード: データセットには機密とされるデータが含まれていますか? 法的な特権または医師によって保護されるデータ - 患者の機密性 個人のコンテンツを含むデータ”非パブリックコミュニケーション”?
0.81
If so, please provide a description. もしそうなら、説明してください。 0.75
The data contains personal data under GDPR in the form of video and audio recordings of subjects. このデータにはGDPRの下の個人データが含まれており、被験者の映像や音声を記録できる。 0.61
The dataset is shared under an End User License Agreement for research purposes, to ensure that the data is not made public, and to protect the privacy of data subjects. データセットは研究目的のためにEnd User License Agreementの下で共有され、データが公開されていないことを保証するとともに、データ対象のプライバシを保護する。 0.77
Does the dataset contain data that, if viewed directly, might be offensive, insulting, threatening, or might otherwise cause anxiety? データセットには、直接見た場合、攻撃的、侮辱的、脅迫的、あるいは不安を引き起こす可能性のあるデータが含まれているか? 0.69
If so, please describe why. もしそうなら、その理由を説明してください。 0.53
No. Does the dataset relate to people? いいえ。 データセットは人々に関連していますか? 0.67
If not, you may skip the remaining questions in this section. そうでない場合は、このセクションの残りの質問をスキップできます。 0.71
Yes, the dataset contains recordings of human subjects. データセットには、人間の被験者の記録が含まれています。 0.55
Does the dataset identify any subpopulations (e g , by age, gender)? データセットは、どんなサブ人口(例えば、年齢、性別)を識別しますか? 0.71
If so, please describe how these subpopulations are identified and provide a description of their respective distributions within the dataset. もしそうなら、これらのサブポピュレーションがどのように特定され、データセット内のそれぞれの分布が記述されるかを説明してください。 0.58
Data subjects answered the following questions before the start of the data collection event, after filling in their consent form: データ主体は、同意書に記入した後、データ収集イベントの開始前に以下の質問に答えた。 0.82
• Is this your first time attending ACM MM? ・ACM MMに出席するのは初めてですか。 0.80
• Select the area(s) that describes best your research interest(s) in recent years. • 近年の研究関心を最もよく表現した領域を選択する。 0.55
Descriptions of each theme are listed here: https://acmmm.org/ca ll-for-papers/ 解説 https://acmmm.org/ca ll-for-papers/ 0.46
4 4 0.42
英語(論文から抽出)日本語訳スコア
Figure 6 shows the distribution of the responses / populations. 図6は、応答/人口の分布を示しています。 0.76
Figure 6: Distribution of newcomer/veteran participants (left) and their research interests (right) in percentage. 図6: 新参者/獣医参加者(左)とその研究関心(右)の割合の分布。 0.78
Is it possible to identify individuals (i.e., one or more natural persons), either directly or indirectly (i.e., in combination with other data) from the dataset? データセットから直接または間接的に(つまり他のデータと組み合わせて)個人(すなわち1人または複数の自然人)を識別することは可能か? 0.85
If so, please describe how. もしそうなら、どのように説明してください。 0.58
Individuals may be identified from their video recordings. 個人はビデオ録音から特定することができる。 0.77
However, this is unlikely to be possible from the dataset alone unless the observer knows the data subjects personally. しかし、観測者が個人的にデータ対象を知らなければ、データセットだけでは不可能である。 0.78
Otherwise, individuals in the dataset could be identified in combination with identified pictures or videos or them. そうでなければ、データセットの個人は、特定された写真やビデオ、あるいはそれらと組み合わせて識別できる。 0.61
However, re-identifying the data subjects is against the End User License Agreement we share the dataset under. しかし、データ対象を再識別することは、データセットを共有しているエンドユーザーライセンス協定に反する。 0.68
Does the dataset contain data that might be considered sensitive in any way (e g , data that reveals racial or ethnic origins, sexual orientations, religious beliefs, political opinions or union memberships, or locations; financial or health data; biometric or genetic data; forms of government identification, such as social security numbers; criminal history)? データセットには、いかなる方法でも敏感と考えられるデータが含まれているか(例えば、人種的または民族的な起源、性的指向、宗教的信念、政治的意見または組合のメンバーシップまたは場所、財政的または健康的なデータ、バイオメトリックまたは遺伝的データ、社会保障番号、犯罪歴など、政府の識別形態など)。 0.76
If so, please provide a description. もしそうなら、説明してください。 0.75
We did not request these information from data subjects. 我々はこれらの情報をデータ科目から求めなかった。 0.67
Any other comments? YOUR ANSWER HERE 他にコメントは? あなたの答えは 0.71
COLLECTION How was the data associated with each instance acquired? 収集 それぞれのインスタンスに関連するデータはどのように取得されましたか? 0.54
Was the data directly observable (e g , raw text, movie ratings), reported by subjects (e g , survey responses), or indirectly inferred/derived from other data (e g , part-of-speech tags, model-based guesses for age or language)? データは直接観測可能(原文、映画評価など)か、被験者が報告した(調査回答など)か、間接的に他のデータから推論・派生したもの(一部音声タグ、年齢や言語に関するモデルベースの推測など)か? 0.76
If data was reported by subjects or indirectly inferred/derived from other data, was the data validated/verified? 被験者がデータを報告したり、他のデータから間接的に推論/派生した場合、そのデータは検証/検証されましたか? 0.52
If so, please describe how. もしそうなら、どのように説明してください。 0.58
The collected data is directly observable, containing video recordings, low-frequency audio recordings and wearable sensing signals (inertial motion unit (IMU) and Bluetooth proximity sensors) of individuals in the interaction scenes. 収集されたデータは直接観測可能であり、対話シーン内の個人のビデオ記録、低周波オーディオ記録、ウェアラブルセンシング信号(慣性モーションユニット(IMU)およびBluetooth近接センサー)を含んでいる。 0.78
Accompanying data includes self-reported binary categorization of experience level and interests in research topics. 伴うデータには、自己報告された経験レベルのバイナリ分類と研究トピックへの関心が含まれる。 0.56
Video recordings capture the whole interaction floor where the association from data to individual is done manually by annotators by referring to frontal and overhead views. ビデオ記録は、前頭およびオーバーヘッドビューを参照して、データから個人への関連がアノテータによって手作業で実行されるインタラクションフロア全体をキャプチャする。 0.65
The rest of the data was acquired from the wearable sensing badges, which is person-specific (i.e., no participant shared the device). 残りのデータは、個人固有のウェアラブルセンシングバッジ(デバイスを共有した参加者はいない)から取得された。 0.67
Video and audio data were verified in playback. ビデオとオーディオのデータは再生で検証された。 0.71
Wearable sensing data was verified through plots after parsing. ウェアラブルセンシングデータは解析後のプロットによって検証された。 0.49
Over what timeframe was the data collected? データの収集期間は,何時間でしたか? 0.63
Does this timeframe match the creation timeframe of the data associated with the instances (e g , recent crawl of old news articles)? このタイムフレームは、インスタンスに関連するデータ(例えば、最近の古いニュース記事のクロール)の生成時間フレームと一致しますか? 0.79
If not, please describe the timeframe in which the data associated with the instances was created. そうでない場合は、インスタンスに関連するデータが作成された時間枠を説明してください。 0.73
Finally, list when the dataset was first published. 最後に、データセットが最初に公開された時のリスト。 0.63
All data was collected on October 24, 2019, except the self-reported experience level and research interest topics which are either obtained on the same day or not more than one week before the data collection day. 2019年10月24日に収集されたデータはすべて、データ収集の日より1週間以上前に取得された、自己報告された経験レベルと研究関心トピック以外である。 0.77
This time frame matches the creation time frame of the data association for wearable このタイムフレームはウェアラブルのためのデータアソシエーションの作成時間フレームと一致する 0.83
5 5 0.42
英語(論文から抽出)日本語訳スコア
sensing data. Video data was associated with individual during annotation stage (2020-2021), but all information used for association was obtained on the data collection day. データを感知する 注記段階 (2020-2021) には映像データと個人データが関連づけられたが, 関連情報はすべてデータ収集日に取得された。 0.76
What mechanisms or procedures were used to collect the data (e g , hardware apparatus or sensor, manual human curation, software program, software API)? データ(ハードウェア機器やセンサー、手動の人的キュレーション、ソフトウェアプログラム、ソフトウェアapiなど)の収集にどのようなメカニズムや手順が使われたのか? 0.82
How were these mechanisms or procedures validated? これらのメカニズムや手順はどのように検証されましたか? 0.50
The synchronization setup for data collection was documented and published in [8], which includes validation of the system. データ収集の同期設定は[8]で文書化され、システムの検証が含まれている。 0.77
To lend the reader further insight into the process of setting up the recording of such datasets in-the-wild, we share images of our process in Figure 7. 筆者らは,そのようなデータセットの記録設定の過程について,読者にさらなる洞察を与えるため,図7に示すプロセスの画像を共有する。 0.70
(a) Aligning cameras (b) Affixing the mounting beam (a)カメラの配向 (b)取付梁を固定すること 0.79
(c) Aligning floor (c)アライニングフロア 0.81
grid (d) Marking the floor grid for camera extrinsics グリッド (d)カメラ外装用フロアグリッドのマーキング 0.66
(e) Interaction Area (e)インタラクションエリア 0.66
(f) Testing camera synchornization (f)カメラ同期化試験 0.84
(g) Assembling Midges (g)midgesを組み立てること 0.74
(h) Midges (i) Testing crossmodal synchronization (h)ミゲス (i)クロスモーダル同期の試験 0.56
Figure 7: Illustrating the process of setting up the data recording. 図7: データ記録のセットアッププロセスの図示。 0.66
The sensor hardware has been documented and open-sourced at https://github.com/J erzeek/ spcl_midge_hardware. センサーハードウェアはhttps://github.com/j erzeek/spcl_midge_ha rdwareで文書化およびオープンソース化されている。 0.49
The validation of the sensors was completed through an external contractor engineer. センサーの検証は外部の請負業者によって完了した。 0.70
The data collection software was documented and published in [? ], which includes validation of the system. データ収集ソフトウェアは、システムの検証を含む[? ]で文書化され、公開された。 0.78
These hardwares and mechanisms have been open-sourced along with their respective publication. これらのハードウェアとメカニズムは、それぞれの出版物とともにオープンソース化されている。 0.57
What was the resource cost of collecting the data? データ収集のリソースコストはどのくらいでしたか? 0.83
(e g what were the required computational resources, and the associated financial costs, and energy consumption - estimate the carbon footprint. See Strubell et al [? ] for approaches in this area.) (例えば、必要な計算資源、関連する財政費、エネルギー消費量は、カーボンフットプリントの推定である。この分野でのアプローチについては、strubell et al [?]を参照のこと。) 0.75
The resources required to collect the data include equipment, logistics, and travel costs. データ収集に必要なリソースには、機器、物流、旅行費が含まれる。 0.78
Equipment include video cameras, wearable sensors, and fixation infrastructure to the data collection venue. 機器には、ビデオカメラ、ウェアラブルセンサー、データ収集会場への固定インフラなどが含まれる。 0.67
In our case, we used 14 GoPro Hero 8 ( $350 per camera), and 60 wearable sensors ( $25 per sensor). 私たちの場合、GoPro Hero 8(カメラあたり350ドル)と60個のウェアラブルセンサー(センサーあたり25ドル)を使用しました。 0.78
The full data synchronization setup costs approximately $ 2000. 完全なデータ同期設定は、約2000ドルである。 0.75
The logistics costs include two personnel contracted by the conference organizers to facilitate fixating data recording scaffold on ロジスティクスコストには、データ記録の足場を固定するのを容易にするためにカンファレンス主催者が契約した2人の人員が含まれる。 0.45
6 6 0.43
英語(論文から抽出)日本語訳スコア
the ceiling for approximately 2 hours. Travel costs include flights and accomodation for six team members. 天井は約2時間。 旅行費は6人のチームメンバーのフライトと宿泊を含む。 0.60
No additional energy consumption was incurred for collecting the data. データ収集に余計なエネルギー消費は発生しなかった。 0.75
However, the ancillary activities (e g , flights, accommodation) resulted in energy consumption. しかし、補助的な活動(フライト、宿泊など)はエネルギー消費を生み出した。 0.65
Flights from the Netherlands to France round-trip for one passenger results in 170 kg carbon emissions. オランダからフランスへの1回の往復で170kgの二酸化炭素が排出される。 0.68
Accommodation for six members resulted in 22 kWh energy consumption. 6人分の宿泊は22kWhのエネルギー消費となった。 0.67
For benchmarking, various deep learning models were trained, which results in approximately $500 computational cost. ベンチマークでは、様々なディープラーニングモデルをトレーニングし、約500ドルの計算コストが得られた。 0.59
If the dataset is a sample from a larger set, what was the sampling strategy (e g , deterministic, probabilistic with specific sampling probabilities)? データセットがより大きな集合からのサンプルであれば、サンプリング戦略(例えば、決定論的、特定のサンプリング確率を持つ確率的)は何か? 0.83
Conflab is an annotated subset of a larger set of the data collected. Conflabは、収集されたデータ集合の注釈付きサブセットである。 0.77
This segment where the articulated pose and speaking status were annotated is selected based on start time of the event in consideration of crowd density maximization in the scenes. シーン内の群衆密度の最大化を考慮したイベント開始時刻に基づいて、明瞭なポーズと発話状態が注釈付けされたセグメントを選択する。 0.83
The annotated segment is 15 minutes; the whole set is roughly 1 hr of recordings. 注釈付きセグメントは15分で、全体の録音時間はおよそ1時間である。 0.77
Who was involved in the data collection process (e g , students, crowdworkers, contractors) and how were they compensated (e g , how much were crowdworkers paid)? 誰がデータ収集プロセス(学生、群集労働者、請負業者など)に関わり、どのように補償されたか(群集労働者はいくら支払ったか)? 0.77
The Conflab dataset was captured during an embedded event at a conference. Conflabデータセットは、カンファレンスの組み込みイベント中にキャプチャされた。 0.74
Conference student volunteers were involved in assisting the set-up of the event. カンファレンスの学生ボランティアはイベントのセットアップの支援に携わった。 0.69
Conference organizers assisted in connecting us with conference venue contacts to mount our technical set-ups in the room. カンファレンスの主催者は、会議会場の連絡先と私たちをつなげて、私たちの技術的なセットアップを部屋に取り付けるように支援します。
訳抜け防止モード: コンファレンス主催者 カンファレンス会場の連絡先と接続して、技術セットをマウントする - 部屋のセットアップ。
0.63
Volunteers and conference organizers were not paid by us. ボランティアやカンファレンス主催者は私たちに支払われませんでした。 0.62
Conference venue contacts were paid by the conference organizers. 会議会場の連絡先は会議主催者によって支払われた。 0.63
Data annotations were completed by crowdsourced workers. データアノテーションはクラウドソースのワーカーによって完成した。 0.41
The crowdsourced workers were paid 0.20 dollars for qualification assignment (note that typically requesters do not pay for qualification tasks). クラウドソーシングされた労働者は、資格の割り当てに0.20ドルを支払った(通常、要求者は資格のタスクに支払いをしない)。 0.54
Depending on the submitted results, workers earn qualification to access of the actual tasks. 提出された結果に応じて、労働者は実際のタスクにアクセスする資格を得る。 0.65
The annotation tasks were categorized into low-effort (150), medium-effort (300), and high-effort (450), corresponding to the amount of time it would take. アノテーションタスクは、必要な時間に応じて、low-effort (150)、medium-effort (300)、high-effort (450)に分類された。 0.68
The duration of the tasks was determined by the crowd density and through timing of the pilot studies. 作業の継続期間は,群集密度とパイロット実験のタイミングによって決定された。 0.73
The average hourly payment to workers is around 8 US dollars. 労働者に対する平均時間給はおよそ8米ドルである。 0.81
Were any ethical review processes conducted (e g , by an institutional review board)? 倫理審査プロセス(例えば、機関審査委員会)は実施されていますか。 0.66
If so, please provide a description of these review processes, including the outcomes, as well as a link or other access point to any supporting documentation. もしそうなら、これらのレビュープロセスの説明、結果、サポート対象のドキュメントへのリンクやその他のアクセスポイントを提供してください。 0.67
The data collection was approved by the Human Research Ethics Committee (HREC) of our university (Delft University of Technology), which reviews all research involving human subjects. データ収集は、私たちの大学(デルフト工科大学)の人間研究倫理委員会(hrec)が承認し、人間の対象に関するすべての研究をレビューした。 0.73
The review process included addressing privacy concerns to ensure compliance with GDPR and university guidelines, review of our informed consent form, data management plan, and end user license agreement for the dataset and a safety check of our custom wearable devices. レビュープロセスには、GDPRと大学ガイドラインの遵守を保証するためのプライバシー問題への対処、インフォームドコンセンサスフォームのレビュー、データ管理計画、データセットのエンドユーザーライセンス契約、カスタムウェアラブルデバイスの安全性チェックが含まれていた。 0.66
Does the dataset relate to people? データセットは人々に関連していますか? 0.56
If not, you may skip the remainder of the questions in this section. そうでない場合は、このセクションの残りの質問をスキップすることができる。 0.71
Yes. Did you collect the data from the individuals in question directly, or obtain it via third parties or other sources (e g , websites)? はい。 質問対象の個人から直接データを収集したり、サードパーティや他のソース(Webサイトなど)から入手したりしましたか? 0.81
We collected the data from individuals directly. 私たちは個人から直接データを収集した。 0.68
Were the individuals in question notified about the data collection? 問題の個人はデータ収集について通知されましたか? 0.66
If so, please describe (or show with screenshots or other information) how notice was provided, and provide a link or other access point to, or otherwise reproduce, the exact language of the notification itself. もしそうなら、通知がどのように提供されたかを説明(またはスクリーンショットや他の情報で示す)し、通知自体の正確な言語に対するリンクまたは他のアクセスポイントを提供する。 0.78
The individuals were notified about the data collection and their participation is voluntary. 個人はデータ収集について通知され、参加は自発的です。 0.63
The data collection was staged at an event called Meet the Chairs at ACM MM 2019. データ収集は、ACM MM 2019でMeet the Chairsと呼ばれるイベントで実施された。 0.82
The ConfLab web page (https://conflab.ewi .tudelft.nl/) served to communicate the aim of the event, what was being recorded, and how participants could sign up. ConfLabのWebページ(https://conflab.ewi .tudelft.nl/)は、イベントの目的、記録されているもの、参加者のサインアップ方法を伝えるのに役立った。 0.61
This allowed us to embed the informed consent into this framework so we could keep track of sign ups. これにより、このフレームワークにインフォームドコンセントを埋め込むことで、サインアップの追跡が可能になりました。 0.50
See Figure 8 for screenshots. スクリーンショットは図8を参照。 0.72
This event website was also shared by the conference organizers and chairs (https://2019.acmmm. org/ conflab-meet-the-cha irs/index.html). このイベントのウェブサイトはカンファレンスの主催者と議長(https://2019.acmmm. org/ conflab-meet-the-cha irs/index.html)によっても共有された。 0.46
7 7 0.42
英語(論文から抽出)日本語訳スコア
Figure 8: Screenshots of the ConfLab web-page used for participant recruitment and registration. 図8: 参加採用と登録に使用されるConfLabのWebページのスクリーンショット。 0.81
Figure 9: Consent form signed by each participant in the data collection. 図9: データコレクションの各参加者が署名した同意フォーム。 0.87
Did the individuals in question consent to the collection and use of their data? 問題の個人はデータの収集と利用に同意したのか? 0.71
If so, please describe (or show with screenshots or other information) how consent was requested and provided, and provide a link or other access point to, or otherwise reproduce, the exact language to which the individuals consented. もしそうなら、どのように同意が要求され提供されたかを説明(またはスクリーンショットや他の情報で示)し、個人が同意した正確な言語へのリンクまたは他のアクセスポイントを提供する。 0.75
All the individuals who participated in the data collection gave their consent by signing a consent form. データ収集に参加したすべての個人は同意書に署名することで同意した。 0.76
A copy of the form is attached below in Figure 9. 図9に、フォームのコピーを添付します。 0.61
If consent was obtained, were the consenting individuals provided with a mechanism to revoke their consent in the future or for certain uses? もし同意が得られたら、将来、あるいは特定の用途のために同意を取り消すためのメカニズムを持った同意者か。 0.61
If so, please provide a description, as well as a link or other access point to the mechanism (if appropriate) Yes, the consenting individuals were informed about revoking access to their data. もしそうなら、説明とリンクまたは他のアクセスポイントをメカニズム(適切であれば)に提供してください。 はい、同意した個人は、データへのアクセスを取り消したことを知らされました。 0.70
The description is 8 説明は 8 0.49
英語(論文から抽出)日本語訳スコア
included in the consent form. 同意書に含まれています 0.63
Has an analysis of the potential impact of the dataset and its use on data subjects (e g , a data protection impact analysis)been conducted? データセットの潜在的な影響とその使用がデータ対象に与える影響(データ保護影響分析など)についての分析を行ったか? 0.89
If so, please provide a description of this analysis, including the outcomes, as well as a link or other access point to any supporting documentation. もしそうなら、結果を含むこの分析の説明や、サポートするドキュメントへのリンクやその他のアクセスポイントを提供してください。 0.74
No. Any other comments? いいえ。 他にコメントは? 0.75
YOUR ANSWER HERE PREPROCESSING / CLEANING / LABELING あなたの答えは 事前処理/クリーニング/ラベル付け 0.68
Was any preprocessing/cleani ng/labeling of the data done(e g ,discretization or bucketing, tokenization, part-of-speech tagging, SIFT feature extraction, removal of instances, processing of missing values)? データの事前処理/クリーニング/ラベル付け(例えば、分散化やバケット化、トークン化、音声タグ付け、SIFT機能抽出、インスタンスの削除、欠落した値の処理)は行われましたか? 0.66
If so, please provide a description. もしそうなら、説明してください。 0.75
If not, you may skip the remainder of the questions in this section. そうでない場合は、このセクションの残りの質問をスキップすることができる。 0.71
We did not pre-process the signals obtained from the wearable devices or cameras. ウェアラブルデバイスやカメラから得た信号を前処理していませんでした。 0.58
The only exception is the audio data, which unfortunately was not properly synced at collection time due to a bug in the code for audio storage in our wearable devices. 唯一の例外はオーディオデータで、残念ながら当社のウェアラブルデバイスにおけるオーディオストレージのコードのバグのため、収集時に適切に同期されなかった。 0.75
We processed the audio files to improve their synchronization by leveraging timestamps from the acceleration files. アクセラレーションファイルからのタイムスタンプを利用して音声ファイルの同期を改善する。 0.68
Labeling of the dataset was done as explained in the Composition section. データセットのラベル付けはコンポジションセクションで説明されている。 0.69
Was the “raw” data saved in addition to the preprocessed/cleaned /labeled data (e g , to support unanticipated future uses)? データは、事前処理/クリーニング/ラベル付きデータ(例えば、予期しない将来的な使用をサポートするために)に加えて保存されましたか? 0.59
If so, please provide a link or other access point to the “raw” data. もしそうなら、“raw”データのリンクや他のアクセスポイントを提供してください。 0.80
For the audio, the original raw data is not suitable for most use cases due to the mentioned synchronization issue. オーディオの場合、上記の同期問題のため、元の生データはほとんどのユースケースには適さない。 0.72
Is the software used to preprocess/clean/lab el the instances available? ソフトウェアはインスタンスのプリプロセス/クリーン/ラベルに使われていますか? 0.55
If so, please provide a link or other access point. もしそうなら、リンクや他のアクセスポイントを提供してください。 0.74
The processing / fixing of the audio files did not require special software. オーディオファイルの処理や修正には特別なソフトウェアは必要なかった。 0.82
The annotation of keypoints and speaking status was done by making use of the Covfee framework: https://josedvq.gith ub.io/covfee/ Any other comments? キーポイントとスピーキングステータスのアノテーションは、covfeeフレームワークを使って行われた。 https://josedvq.gith ub.io/covfee/ 他のコメントは?
訳抜け防止モード: キーポイントと発話状態の注釈は covfee framework : https://josedvq.gith ub.io/covfee/ その他コメントは?
0.81
YOUR ANSWER HERE USES あなたの答えは 利用 0.56
Has the dataset been used for any tasks already? データセットはすでに何らかのタスクに使用されていますか? 0.55
If so, please provide a description. もしそうなら、説明してください。 0.75
YOUR ANSWER HERE Is there a repository that links to any or all papers or systems that use the dataset? あなたの答えは データセットを使用する何らかの論文やシステムへのリンクを持つリポジトリはありますか? 0.71
please provide a link or other access point. リンクや他のアクセスポイントを提供してください。 0.75
YOUR ANSWER HERE If so, あなたの答えは もしそうなら 0.69
What (other) tasks could the dataset be used for? データセットはどんな(他の)タスクに使えるのか? 0.80
YOUR ANSWER HERE Is there anything about the composition of the dataset or the way it was collected and preprocessed/cleaned /labeled that might impact future uses? あなたの答えは データセットの構成や収集方法や、将来の使用に影響を及ぼす可能性のあるプリプロセス/クリーニング/ラベルなど、何かありますか? 0.64
For example, is there anything that a future user might need to know to avoid uses that could result in unfair treatment of individuals or groups (e g , stereotyping, quality of service issues) or other undesirable harms (e g , financial harms, legal risks) If so, please provide a description. 例えば、将来のユーザが、個人やグループの不公平な扱い(例えば、ステレオタイプ、サービス品質の問題)やその他の望ましくない損害(例えば、財政的損害、法的リスク)を避けるために知っておく必要があることはありますか?
訳抜け防止モード: 例えば、将来ユーザーが利用を避けるために知っておくべきことがあれば、個人やグループの不公平な扱いに繋がることがあるだろうか。 (例:ステレオタイピング、サービス品質) または、他の望ましくない害(例えば、金銭的損害、法的リスク) 説明をお願いします。
0.67
Is there anything a future user could do to mitigate these undesirable harms? この望ましくない被害を軽減するために、将来ユーザーができることはありますか? 0.67
9 9 0.43
英語(論文から抽出)日本語訳スコア
YOUR ANSWER HERE Are there tasks for which the dataset should not be used? あなたの答えは データセットを使用すべきでないタスクはありますか? 0.72
If so, please provide a description. もしそうなら、説明してください。 0.75
YOUR ANSWER HERE Any other comments? あなたの答えは 他にコメントは? 0.71
YOUR ANSWER HERE DISTRIBUTION あなたの答えは 流通 0.58
Will the dataset be distributed to third parties outside of the entity (e g , company, institution, organization) on behalf of which the dataset was created? データセットは、データセットが作成されたエンティティ(例えば、企業、機関、組織)以外のサードパーティに分散されますか?
訳抜け防止モード: データセットはエンティティ以外のサードパーティに分散されるか? (例:企業、機関、組織) データセットが作成された場所を代表して?
0.77
If so, please provide a description. もしそうなら、説明してください。 0.75
YOUR ANSWER HERE How will the dataset will be distributed (e g , tarball on website, API, GitHub)? あなたの答えは データセットはどのように配布されるのか(Webサイト、API、GitHubのtarballなど)? 0.71
Does the dataset have a digital object identifier (DOI)? データセットはデジタルオブジェクト識別子(DOI)を持っているか? 0.76
YOUR ANSWER HERE When will the dataset be distributed? あなたの答えは データセットはいつ配布されますか? 0.68
YOUR ANSWER HERE Will the dataset be distributed under a copyright or other intellectual property (IP) license, and/or under applicable terms of use (ToU)? あなたの答えは データセットは、著作権または他の知的財産(ip)ライセンス、および/または適用可能な使用規約(tou)の下で配布されるか? 0.69
If so, please describe this license and/or ToU, and provide a link or other access point to, or otherwise reproduce, any relevant licensing terms or ToU, as well as any fees associated with these restrictions. もしそうなら、このライセンスおよび/またはtouを説明し、関連するライセンス条項またはtouに対するリンクまたは他のアクセスポイント、およびこれらの制限に関連する手数料を提供する。 0.71
YOUR ANSWER HERE Have any third parties imposed IP-based or other restrictions on the data associated with the instances? あなたの答えは サードパーティは、インスタンスに関連するデータに対して、IPベースのその他の制限を課しましたか? 0.64
If so, please describe these restrictions, and provide a link or other access point to, or otherwise reproduce, any relevant licensing terms, as well as any fees associated with these restrictions. もしそうなら、これらの制限を記述し、リンクやその他のアクセスポイントを提供して、関連するライセンス条件や、これらの制限に関連する料金を再生してください。 0.72
YOUR ANSWER HERE Do any export controls or other regulatory restrictions apply to the dataset or to individual instances? あなたの答えは データセットや個々のインスタンスに対して、エクスポートコントロールやその他の規制制限は適用されますか? 0.69
If so, please describe these restrictions, and provide a link or other access point to, or otherwise reproduce, any supporting documentation. もしそうなら、これらの制限を説明し、サポート対象のドキュメントへのリンクや他のアクセスポイントを提供してください。 0.69
YOUR ANSWER HERE Any other comments? あなたの答えは 他にコメントは? 0.71
YOUR ANSWER HERE MAINTENANCE あなたの答えは 保守 0.51
Who is supporting/hosting/m aintaining the dataset? データセットのサポート/ホスト/メンテナンスは誰ですか? 0.42
The Socially Perceptive Computing Lab at TU Delft. tu delftの社会的に知覚的なコンピューティングラボ。 0.59
How can the owner/curator/manage r of the dataset be contacted (e g , email address)? データセットの所有者/キュレーター/マネージャが(eメールアドレスなど)どのように接触するか? 0.68
Via email: H.Hung@tudelft.nl. メール: H.Hung@tudelft.nl 0.80
Is there an erratum? エラトゥムはありますか。 0.50
If so, please provide a link or other access point. もしそうなら、リンクや他のアクセスポイントを提供してください。 0.74
YOUR ANSWER HERE 10 あなたの答えは 10 0.56
英語(論文から抽出)日本語訳スコア
Will the dataset be updated (e g , to correct labeling errors, add new instances, delete instances)? データセットは更新されるか(例えば、ラベル付けエラーの修正、新しいインスタンスの追加、インスタンスの削除など)? 0.77
If so, please describe how often, by whom, and how updates will be communicated to users (e g , mailing list, GitHub)? もしそうなら、どの頻度で、誰によって、どのようにアップデートがユーザー(例えば、メーリングリスト、github)に伝達されるのかを説明してください。
訳抜け防止モード: もしそうなら、誰がどのくらいの頻度で そして、ユーザ(例えば、メーリングリスト、GitHubなど)にどのようにアップデートが伝達されるか?
0.81
Updates will be done as needed as opposed to periodically. 更新は定期的に行うのではなく、必要に応じて行われる。 0.57
Instances could be deleted, added, or corrected. インスタンスは削除、追加、または修正できる。 0.70
The updates will be posted on the dataset website. 更新はデータセットのWebサイトにポストされる。 0.78
If the dataset relates to people, are there applicable limits on the retention of the data associated with the instances (e g , were individuals in question told that their data would be retained for a fixed period of time and then deleted)? データセットが人々に関連している場合、インスタンスに関連するデータの保持には、適用可能な制限があるか(例えば、問題の個人は、データが一定期間保持され、その後削除されると言われたか? 0.81
If so, please describe these limits and explain how they will be enforced. もしそうなら、これらの制限を説明し、どのように実施されるかを説明してください。 0.59
No limits were communicated to data subjects. 制限はデータ被験者に伝達されなかった。 0.61
Will older versions of the dataset continue to be supported/hosted/mai ntained? 古いバージョンのデータセットは引き続きサポート/ホスト/メンテナンスされますか? 0.60
If so, please describe how. もしそうなら、どのように説明してください。 0.58
If not, please describe how its obsolescence will be communicated to users. そうでない場合は、その控えめさがユーザにどのように伝えられるか説明してください。 0.43
No, only a single version of the dataset will be maintained. いいえ、データセットの単一のバージョンのみがメンテナンスされます。 0.79
If others want to extend/augment/build on/contribute to the dataset, is there a mechanism for them to do so? データセットの拡張/拡張/ビルド/コントリビュートしたい人のために、それを行うメカニズムはありますか? 0.58
If so, please provide a description. もしそうなら、説明してください。 0.75
Will these contributions be validated/verified? これらのコントリビューションは検証/検証されるか? 0.42
If so, please describe how. もしそうなら、どのように説明してください。 0.58
If not, why not? なぜそうでないのか? 0.71
Is there a process for communicating/distri buting these contributions to other users? これらの貢献を他のユーザに伝達/配布するプロセスはありますか? 0.63
If so, please provide a description. もしそうなら、説明してください。 0.75
We are open to contributions to the dataset. データセットへのコントリビューションはオープンです。 0.49
We expect the potential contributor to contact us, indicating if there are any restrictions on their contribution and how they wish to be attributed so that we can start a discussion. 私たちは、潜在的なコントリビューターが私たちに連絡し、貢献に制限があるかどうかと、彼らが議論を始めるためにどのように貢献したいのかを示すことを期待しています。
訳抜け防止モード: 潜在的なコントリビュータが私たちに連絡してくれることを期待しています。 彼らの貢献には それらがどう影響されたいのか 議論を始められるように
0.62
If an agreement is reached, we will add their contribution as an update following the same process explained above. もし合意に達したら、上記と同じプロセスに従って、彼らの貢献をアップデートとして追加します。 0.66
Any other comments? YOUR ANSWER HERE 他にコメントは? あなたの答えは 0.71
11 11 0.42
                                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。