論文の概要: Reading Recognition in the Wild
- arxiv url: http://arxiv.org/abs/2505.24848v2
- Date: Thu, 05 Jun 2025 09:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.146387
- Title: Reading Recognition in the Wild
- Title(参考訳): 野生における読書認識
- Authors: Charig Yang, Samiul Alam, Shakhrul Iman Siam, Michael J. Proulx, Lambert Mathias, Kiran Somasundaram, Luis Pesqueira, James Fort, Sheroze Sheriffdeen, Omkar Parkhi, Carl Ren, Mi Zhang, Yuning Chai, Richard Newcombe, Hyo Jin Kim,
- Abstract要約: ユーザがいつ読んでいるかを判断する新しい読解タスクを導入する。
まず、Wildデータセットにおける大規模マルチモーダル読み込みについて紹介する。
- 参考スコア(独自算出の注目度): 20.787452286379292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable egocentric contextual AI in always-on smart glasses, it is crucial to be able to keep a record of the user's interactions with the world, including during reading. In this paper, we introduce a new task of reading recognition to determine when the user is reading. We first introduce the first-of-its-kind large-scale multimodal Reading in the Wild dataset, containing 100 hours of reading and non-reading videos in diverse and realistic scenarios. We then identify three modalities (egocentric RGB, eye gaze, head pose) that can be used to solve the task, and present a flexible transformer model that performs the task using these modalities, either individually or combined. We show that these modalities are relevant and complementary to the task, and investigate how to efficiently and effectively encode each modality. Additionally, we show the usefulness of this dataset towards classifying types of reading, extending current reading understanding studies conducted in constrained settings to larger scale, diversity and realism.
- Abstract(参考訳): 常時オンのスマートグラスにおいて、エゴセントリックなコンテキストAIを可能にするためには、読書を含む世界とのインタラクションの記録を維持することが不可欠である。
本稿では,ユーザがいつ読んでいるかを判断する新しい読解タスクを提案する。
まず第一に、Wildデータセットにおける大規模マルチモーダル読み出しについて紹介し、多様な現実的なシナリオにおいて、100時間の読み出しと非読み出しビデオを含む。
次に、課題を解決するために使用できる3つのモダリティ(自己中心的RGB、視線、頭部ポーズ)を特定し、これらのモダリティを用いてタスクを実行するフレキシブルトランスフォーマーモデルを提案する。
これらのモダリティはタスクに適切かつ相補的であることを示し、各モダリティを効率的に効果的にエンコードする方法を検討する。
さらに,本データセットは,制約条件下で実施された現在の読解学習を大規模化,多様性,リアリズムに拡張し,読解の種類を分類するための有用性を示す。
関連論文リスト
- Decoding Reading Goals from Eye Movements [1.3176926720381554]
本研究は,情報探索と一般読解の2種類の共通読解目標を区別できるかどうかを検討する。
大規模な視線追跡データを用いて、様々なアーキテクチャとデータ表現戦略をカバーする幅広いモデルを用いて、この問題に対処する。
我々は、参加者がテキストを読み終えるずっと前に、正確な予測をリアルタイムで行うことができることを発見した。
論文 参考訳(メタデータ) (2024-10-28T06:40:03Z) - Fine-Grained Prediction of Reading Comprehension from Eye Movements [1.2062053320259833]
本研究は, 視線運動からの読解理解を, 通路上の1つの質問のレベルで予測する作業に焦点をあてる。
3つの新しいマルチモーダル言語モデルと,文献から得られた先行モデルのバッテリを用いて,この課題に取り組む。
評価の結果,目の動きは,視力の把握に有用な信号を含んでいることが示唆された。
論文 参考訳(メタデータ) (2024-10-06T13:55:06Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。