論文の概要: A Synthetic Eye Movement Dataset for Script Reading Detection: Real Trajectory Replay on a 3D Simulator
- arxiv url: http://arxiv.org/abs/2604.05475v1
- Date: Tue, 07 Apr 2026 06:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.654208
- Title: A Synthetic Eye Movement Dataset for Script Reading Detection: Real Trajectory Replay on a 3D Simulator
- Title(参考訳): スクリプト読取検出のための合成眼球運動データセット:3次元シミュレータによる実軌道再生
- Authors: Kidus Zewde, Yuchen Zhou, Dennis Ng, Neo Tiangratanakul, Tommy Duong, Ankit Raj, Yuxin Zhang, Xingyu Shen, Simiao Ren,
- Abstract要約: 本稿では,参照ビデオから実際の人間の虹彩軌跡を抽出し,合成ラベル付き眼球運動ビデオを生成するパイプラインを提案する。
144セッション(72読取,72会話)を25fpsで12時間合成眼球運動ビデオとしてリリースした。
一致したフレーム・バイ・フレーム比較により、3Dシミュレータは読み出しスケールの動作に対して有界感度を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 12.307366979757065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models have achieved remarkable capabilities by training on massive internet-scale data, yet a fundamental asymmetry persists: while LLMs can leverage self-supervised pretraining on abundant text and image data, the same is not true for many behavioral modalities. Video-based behavioral data -- gestures, eye movements, social signals -- remains scarce, expensive to annotate, and privacy-sensitive. A promising alternative is simulation: replace real data collection with controlled synthetic generation to produce automatically labeled data at scale. We introduce infrastructure for this paradigm applied to eye movement, a behavioral signal with applications across vision-language modeling, virtual reality, robotics, accessibility systems, and cognitive science. We present a pipeline for generating synthetic labeled eye movement video by extracting real human iris trajectories from reference videos and replaying them on a 3D eye movement simulator via headless browser automation. Applying this to the task of script-reading detection during video interviews, we release final_dataset_v1: 144 sessions (72 reading, 72 conversation) totaling 12 hours of synthetic eye movement video at 25fps. Evaluation shows that generated trajectories preserve the temporal dynamics of the source data (KS D < 0.14 across all metrics). A matched frame-by-frame comparison reveals that the 3D simulator exhibits bounded sensitivity at reading-scale movements, attributable to the absence of coupled head movement -- a finding that informs future simulator design. The pipeline, dataset, and evaluation tools are released to support downstream behavioral classifier development at the intersection of behavioral modeling and vision-language systems.
- Abstract(参考訳): 大規模な視覚言語モデルは、大規模なインターネットスケールのデータでトレーニングすることで、驚くべき能力を達成したが、基本的な非対称性は持続している: LLMは、豊富なテキストや画像データで自己教師付き事前学習を利用できるが、多くの行動モダリティではそうではない。
動画に基づく行動データ(ジェスチャー、目の動き、社会信号など)はいまだに乏しく、注釈をつけるのに高価で、プライバシーに敏感だ。
有望な代替手段はシミュレーションである: 実データ収集を制御された合成生成に置き換えて、大規模に自動的にラベル付けされたデータを生成する。
本稿では,視覚言語モデリング,仮想現実,ロボット工学,アクセシビリティシステム,認知科学などに適用可能な行動信号である眼球運動に適用されたこのパラダイムの基盤について紹介する。
本稿では,人間の虹彩軌跡を基準映像から抽出し,ヘッドレスブラウザ自動化による3次元眼球運動シミュレータ上で再生することにより,合成眼球運動映像を生成するパイプラインを提案する。
ビデオインタビュー中のスクリプト読取検出タスクにこれを応用し,25fpsで12時間合成眼球運動映像を合成し,144セッション(72読,72会話)を報告した。
評価の結果、生成された軌跡はソースデータの時間的ダイナミクスを保存する(KS D < 0.14)。
フレーム単位での一致比較の結果、この3Dシミュレータは、結合した頭部の動きがないことに起因する、読み取りスケールの動作に対する境界感度を示すことが明らかとなった。
パイプライン、データセット、評価ツールがリリースされ、行動モデリングと視覚言語システムの交差点における下流の行動分類器開発をサポートする。
関連論文リスト
- V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors [30.872127145725187]
V-Dreamerは、オープン語彙でシミュレーション可能な操作環境を生成する、完全に自動化されたフレームワークである。
V-Dreamerは、物理的に接地された3Dシーンを構成する新しい生成パイプラインを使用している。
我々は,本ポリシーがシミュレーションにおいて未確認オブジェクトに対して堅牢に一般化し,効率的なsim-to-real転送を実現することを示す。
論文 参考訳(メタデータ) (2026-03-19T12:00:04Z) - ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K [83.97657657382376]
データ生成可能なデジタルオブジェクト双子を生成するパイプラインであるManiTwinを提案する。
我々は100Kの高品質な3Dアノテートを含むデータセットManiTwin-100Kを構築した。
ManiTwinは効率的なアセット合成とアノテーションのワークフローを提供する。
論文 参考訳(メタデータ) (2026-03-17T17:59:49Z) - Synthetic Dataset Generation and Validation for Robotic Surgery Instrument Segmentation [4.731220357458455]
ダ・ヴィンチのロボットアームを3Dで再現し、オートデスク・マヤでアニメーション化した。
生成したデータの現実性と有効性を検証するため、実データと合成データの制御された比率でいくつかのセグメンテーションモデルを訓練した。
論文 参考訳(メタデータ) (2026-02-14T18:29:03Z) - Future Optical Flow Prediction Improves Robot Control & Video Generation [100.87884718953099]
本稿では,VLM(Vision-Language Model)と拡散アーキテクチャを組み合わせた新しい光フロー予測モデルFOFPredを紹介する。
我々のモデルは、高度にスケーラブルだが非構造化のソースである、Webスケールの人間活動データに基づいて訓練されている。
言語駆動設定下でのロボット操作とビデオ生成による評価は、FOFPredのクロスドメインの汎用性を確立する。
論文 参考訳(メタデータ) (2026-01-15T18:49:48Z) - Multi-Modal Gesture Recognition from Video and Surgical Tool Pose Information via Motion Invariants [9.77463802740227]
外科的ジェスチャーをリアルタイムで認識することは、自動化された活動認識、スキルアセスメント、術中援助、そして最終的には外科的自動化への一歩である。
マルチモーダルニューラルネットワークにおける最近の研究では、視覚とキネマティクスのデータの関係が学習されているが、現在のアプローチでは、キネマティクス情報を独立した信号として扱うことができ、ツールチップのポーズには基礎的な関係はない。
JIGSAWSサチューリングデータセットにおいて、不変信号とツール位置を組み合わせることにより、ジェスチャー認識が90.3%の精度で向上することを示す。
論文 参考訳(メタデータ) (2025-03-19T19:02:58Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Synthetic Data Are as Good as the Real for Association Knowledge
Learning in Multi-object Tracking [19.772968520292345]
本稿では,3次元合成データが実世界のビデオに取って代わってアソシエーショントレーニングを行うことができるかどうかを考察する。
具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。
実データと比較すると、合成データから得られた関連知識は、ドメイン適応技術なしで実世界のテストセット上で非常によく似た性能が得られることを示す。
論文 参考訳(メタデータ) (2021-06-30T14:46:36Z) - Differentiable Event Stream Simulator for Non-Rigid 3D Tracking [82.56690776283428]
我々の微分可能シミュレータは、イベントストリームから変形可能なオブジェクトの非剛性3D追跡を可能にする。
様々な種類の非剛体物体に対するアプローチの有効性を示し, 既存の非剛体3次元追跡手法と比較した。
論文 参考訳(メタデータ) (2021-04-30T17:58:07Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。